正则匹配问号_爬虫之正则表达式

d5b6c6656c99d3ab3e486cf2776992b5.png

1什么是正则表达式
正则表达式,也称规则表达式(Regular Expression,在代码中常简写为RE)。
2为什么使用
用来匹配、替换一类具有相同规则字符串
3使用规则
3.1单字符:

b6b9a1e4cda5d919c59afc655fdd20f8.png

3.2数量修饰:

5a8c2da2a95995378dbf1882082f1e00.png

3.3边界:

9b4404116bdbbf50c7236530976851c3.png

3.4分组:

7a7bd579637150e07e37bf13a9228cae.png

6a340734db3eed2adff37402121b20f2.png


3.5贪婪模式与非贪婪模式
贪婪模式:.* (匹配>=0次) .+ (匹配>=1次)

e8bc2cd2d0dc7e0649972a00a1c42db2.png

非贪婪模式:.*? .+?(加问号就是非贪婪)

411013236fe0fe29c2856d7f81b66106.png

3.6 匹配

07c01f477c33c1f396a34d4284d897f8.png

3.6.1 re.I-忽略大小写

b4e96d2e1956ce662fd9b97bcff251c8.png

3.6.2 re.M-匹配多行

4d6679b587bd300601ea902eab26f6c9.png

3.6.3 re.S-单行匹配

fc4db93683d33040d01cdcd947d14d99.png


3.7 正则表达式函数

22d78d30d9e8c356430cbb9a42a85581.png

3.7.1 re.match()

6e086b815fdda2ea1d9baa946c3b048e.png

3.7.2 re.search()

e33a215342da8199dde8d82557720e7f.png

3.7.3 re.findall()

57aa4192c4d5558744911c8e7d2f3944.png

3.7.4 re.sub()

beb80fbabec2457649c4fbf1d398bdf6.png

084bb6f291927451e203586b485db377.png


4 案例演示(爬取糗事百科图片)
4.1 爬虫思路:
① 确定网址
② 确定初始结束页
③ 发送请求获取内容
④ 获取图片列表
⑤ 写入文件并且下载单个图片

a06f1ab728d244bdbd47d544bf0da626.png

f736db00b7fc7a23439bd4b8e9832bc8.png

4.2 案例代码

18921bd72ec0d4724b77171dd06d7cc4.png

1fd210ffdefbeddf01b98128fa1cb73d.png

fd511a249de4dc06b82db455373fee57.png

74291c51528cc7c65cb412ecdbd98394.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值