中文文档:https://docs.python.org/zh-cn/3/howto/regex.html#regex-howto
re模块:使用正则表达式,把爬到的源码,取需要的内容。
贪婪与非贪婪重点:(?P< name >.*?)
.*?就是要取的内容
基本使用:例子
# 开发时间: 2022/9/13 22:58
# 1.导入re模块
import re
# 数据
s = """
<div class='aa' id='1'>邓1</div>
<div class='bbs' id='2'>邓2</div>
<div class='c' id='3'>邓3</div>
<div class='ddd' id='4'>邓4</div>
<div class='ff' id='5'>邓5</div>
"""
# 预解析正则表达式 # re.S让.可以识别换行符
obj = re.compile(r"<div class='(?P<cla>.*?)' id='(?P<id>\d)'>(?P<ww>.*?)</div>", re.S)
resp = obj.finditer(s)
for item in resp:
print(item.group("id", "cla", "ww"))
# 常用方法
# re.findall() 查询所有符合条件的 以列表形式返回
# re.search() 查询一个符合条件的
# re.match() 从开头开始匹配
# re.finditer() 以迭代器方式返回