python爬虫re模块的使用

中文文档:https://docs.python.org/zh-cn/3/howto/regex.html#regex-howto

re模块:使用正则表达式,把爬到的源码,取需要的内容。

贪婪与非贪婪重点:(?P< name >.*?)
.*?就是要取的内容

基本使用:例子

# 开发时间: 2022/9/13 22:58
# 1.导入re模块
import re
# 数据
s = """
    <div class='aa' id='1'>邓1</div>
    <div class='bbs' id='2'>邓2</div>
    <div class='c' id='3'>邓3</div>
    <div class='ddd' id='4'>邓4</div>
    <div class='ff' id='5'>邓5</div>
"""
# 预解析正则表达式  #  re.S让.可以识别换行符
obj = re.compile(r"<div class='(?P<cla>.*?)' id='(?P<id>\d)'>(?P<ww>.*?)</div>", re.S)
resp = obj.finditer(s)
for item in resp:
    print(item.group("id", "cla", "ww"))


# 常用方法
# re.findall() 查询所有符合条件的 以列表形式返回
# re.search() 查询一个符合条件的
# re.match() 从开头开始匹配
# re.finditer() 以迭代器方式返回



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值