python爬虫re模块的使用

最新推荐文章于 2024-07-24 10:38:58 发布

全方位老邓

最新推荐文章于 2024-07-24 10:38:58 发布

阅读量280

点赞数

分类专栏： python爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/m0_46211662/article/details/126920239

版权

python爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

中文文档：https://docs.python.org/zh-cn/3/howto/regex.html#regex-howto

re模块：使用正则表达式，把爬到的源码，取需要的内容。

贪婪与非贪婪重点：(?P< name >.*?)
.*?就是要取的内容

基本使用：例子

# 开发时间： 2022/9/13 22:58
# 1.导入re模块
import re
# 数据
s = """
    <div class='aa' id='1'>邓1</div>
    <div class='bbs' id='2'>邓2</div>
    <div class='c' id='3'>邓3</div>
    <div class='ddd' id='4'>邓4</div>
    <div class='ff' id='5'>邓5</div>
"""
# 预解析正则表达式  #  re.S让.可以识别换行符
obj = re.compile(r"<div class='(?P<cla>.*?)' id='(?P<id>\d)'>(?P<ww>.*?)</div>", re.S)
resp = obj.finditer(s)
for item in resp:
    print(item.group("id", "cla", "ww"))


# 常用方法
# re.findall() 查询所有符合条件的 以列表形式返回
# re.search() 查询一个符合条件的
# re.match() 从开头开始匹配
# re.finditer() 以迭代器方式返回