Python爬虫:re解析
数据解析
数据解析的三种方式
- re解析
- bs4解析
- xpath解析
re解析
re:regular expression,正则表达式,一种使用表达式的方式对字符串进行匹配的语法规则。抓取的页面源代码本质是一个很长的字符串,因此可以用正则表达式。
元字符:具有固定含义的特殊字符,默认只匹配一个字符串。
常见的元字符:
元字符 | 含义 |
---|---|
. | 匹配除换行符以外的任意字符 |
\w | 匹配字母或数字或下划线 |
\s | 匹配任意的空白符 |
\d | 匹配数字 |
\t | 匹配一个制表符 |
^ | 匹配字符串的开始 |
$ | 匹配字符串的结尾 |
\W | 匹配非字母或数字或下划线 |
\D | 匹配非数字 |
\S | 匹配非空白符 |
a\b | 匹配字符a或字符b |
() | 匹配括号内的表达式,也表示一个组 |
[…] | 匹配字符组中的字符 |
[^…] | 匹配除了字符组中的所有字符 |
量词:用来控制元字符出现的次数
量词 | 含义 |
---|---|
* | 重复零次或更多次 |
+ | 重复一次或更多次 |
? | 重复零次或一次 |
{n} | 重复n次 |
{n,} | 重复n次或更多次 |
{n,m} | 重复n次到m次 |
贪婪匹配和惰性匹配
字符 | 类型 | 含义 |
---|---|---|
.* | 贪婪匹配 | 尽可能多得匹配 |
.*? | 惰性匹配 | 尽可能少得匹配 |
python的re模块
1.findall用于匹配字符串中所有的符合正则的内容
import re
lst = re.findall(r"\d+","我的电话是:10086,你的电话是:10088")
print(lst)
结果:
['10086', '10088']
2.finditer匹配字符串中所有的内容,返回的是迭代器,从迭代器中拿到内容需要.group()
import re
it = re.finditer(r"\d+","我的电话是:10086,你的电话是:10088")
for i in it :
print(i.group())
结果:
10086
10010
3.search返回的是match对象,找到一个结果就返回,拿数据需要.group()
import re
s = re.search(r"\d+","我的电话是:10086,你的电话是:10088")
print(s.group())
结果:
10086
4.match是从头开始匹配
import re
s = re.match(r"\d+","我的电话是:10086,你的电话是:10088")
print(s.group())
s = re.match(r"\d+","10086,你的电话是:10088")
print(s.group())
结果:
第一个报错:nonetype
第二个:10086
5.预加载正则表达式
import re
obj = re.compile(r"\d+")
it = obj.finditer("我的电话是:10086,你的电话是:10088")
for i in it :
print(i.group())
结果:
10086
10088
6.单独获取正则中的内容
(?P<分组名字>正则)进一步提取正则中的内容
import re
s = """
<div class='jay'><span id='1'>周杰伦</span></div>
<div class='jj'><span id='2'>林俊杰</span></div>
<div class='jolin'><span id='3'>蔡依林</span></div>
"""
#re.S:让.能匹配换行符
obj = re.compile(r"<div class='.*?'><span id='(?P<id>\d)+'>(?P<singer>.*?)</span></div>",re.S)
result = obj.finditer(s)
for it in result:
print(it.group("singer"))
print(it.group("id"))
结果:
周杰伦
1
林俊杰
2
蔡依林
3