爬虫笔记4——用正则表达式解析页面

墨菲马

已于 2024-01-15 17:03:34 修改

阅读量462

点赞数 7

分类专栏：爬虫笔记文章标签：爬虫笔记正则表达式

于 2024-01-15 00:14:15 首次发布

本文链接：https://blog.csdn.net/Yima_Dangxian/article/details/135591213

版权

爬虫笔记专栏收录该内容

27 篇文章 6 订阅

订阅专栏

爬虫用正则表达式提取页面信息

使用正则表达式提取页面信息需要用到Python内置的库——re库

使用的时候直接导入即可

无须下载，直接导包

import re

如何使用re库：

#导入re库
import re

import requests

#首先需要用re库中的compile方法定义正则表达式，然后赋值给一个变量方便操作
#pattern = re.compile(正则表达式)

pattern = re.compile('<span class="title">(.*?)</span>')

#然后使用findall、match、search来找出对应的字符串
#pattern.findall(需要去匹配的字符串，一般是请求网页获取的text) 
返回一个列表
#pattern.match(同上)   该方法从字符串的开始位置开始匹配，一旦当第一个
字母不符合条件时，则不再进行匹配，直接返回 None
#pattern.search(同上) search() 方法用于在整个字符串中搜索第一个匹配
的值，如果匹配成功，则返回 Match 对象，否则返回 None

resp = requests.get(url)    #请求某个网页的信息
datas = pattern.findall(resp.text)
print(datas) #可以打印看看获取什么
pattern.match(同上) 
pattern.search(同上)

就是在原先的基础上导入个可以re库定义正则表达式，然后匹配就没了