爬虫用正则表达式提取页面信息
使用正则表达式提取页面信息需要用到Python内置的库——re库
使用的时候直接导入即可
无须下载,直接导包
import re
如何使用re库:
#导入re库
import re
import requests
#首先需要用re库中的compile方法定义正则表达式,然后赋值给一个变量方便操作
#pattern = re.compile(正则表达式)
pattern = re.compile('<span class="title">(.*?)</span>')
#然后使用findall、match、search来找出对应的字符串
#pattern.findall(需要去匹配的字符串,一般是请求网页获取的text)
返回一个列表
#pattern.match(同上) 该方法从字符串的开始位置开始匹配,一旦当第一个
字母不符合条件时,则不再进行匹配,直接返回 None
#pattern.search(同上) search() 方法用于在整个字符串中搜索第一个匹配
的值,如果匹配成功,则返回 Match 对象,否则返回 None
resp = requests.get(url) #请求某个网页的信息
datas = pattern.findall(resp.text)
print(datas) #可以打印看看获取什么
pattern.match(同上)
pattern.search(同上)
就是在原先的基础上导入个可以re库定义正则表达式,然后匹配就没了