爬虫第二天-------------------------------------笔记(re正则)

本文介绍了在爬虫中使用re正则表达式解析HTML,以抓取糗事百科和树洞网站的用户头像为例,强调了在解析前检查反爬措施、理清思路和验证解析结果的重要性。同时提醒注意不要过度爬取。
摘要由CSDN通过智能技术生成

解析器

  1. re(比较复杂, 反正我倒现在还是一知半解,劝退新手最好的东西)
  2. lxml(xpath,容易理解之后bs4完全上手)
  3. bs4(听说很简单)

那我就迎难而上吧 = =(想劝退我不可能的)

re 正则表达解析

首先我拿了一段糗事百科的html来练练手 = =

import re
demo = """<div class="thumb">
<a href="/article/120424672" target="_blank">
<img src="//pic.qiushibaike.com/system/pictures/12042/120424672/medium/app120424672.jpeg" alt="糗事#120424672" class="illustration" width="100%" height="auto">
</a>
</div>
<div class="thumb">
<a href="/article/118808016" target="_blank">
<img src="//pic.qiushibaike.com/system/pictures/11880/118808016/medium/app118808016.jpg" alt="糗事#118808016" class="illustration" width="100%" height="auto">
</a>
</div>
<div class="thumb">
<a href="/article/120423267" target="_blank">
<img src="//pic.qiushibaike.com/system/pictures/12042/120423267/medium/app120423267.jpeg" alt="糗事#120423267" class="illustration" width="100%" height="auto">
</a>
</div>
"""
# 非贪婪匹配(.*?) 匹配符合条件的值不越界 把你要的值用()起来就行 简单吧
# re.S 单行模式
pat = re.compile(r'<div class="thumb">.*?<img src="(.*?)" alt=.*?</div>', re.S)
# 查找demo里的所有内容
demo_src = pat.findall
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值