爬虫正则总结

最新推荐文章于 2024-05-21 20:02:56 发布

weixin_43143740

最新推荐文章于 2024-05-21 20:02:56 发布

阅读量101

点赞数

分类专栏： xie xie kan xi lie 文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_43143740/article/details/100598500

版权

xie xie kan xi lie 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

urllib说完，接下来说下正则，简单来说，我们在爬虫使用正则就是用提取数据的,我们使用正则里的规则在网页中匹配出我们想要的数据,它有许多规则，我们来说一下常用的几个
首先是单字符匹配，
. 匹配除了换行符之外的任意字符
\d 匹配数字0-9 =>[0-9] => ^\D
\D 匹配非数字
\s 匹配空白字符(空格 \n \r \t)
\S 匹配非空白字符
\w 匹配单词字符[a-zA-Z0-9_]
\W 匹配非单词字符
^ 以…开头
$ 以…结尾
[0-9a-z] :表示匹配数字0～9，字母a～z
[^a-z] : 不匹配a-z之间的字符

多字符匹配
#多字符匹配，贪婪模式

匹配*号前的字符任意次数

匹配+号前的字符至少一次
？匹配?号前的字符0~1次

#多字符匹配，非贪婪模式（abcdeabcde） e
*?
+？
??
| 或
() 分组
使用正则我们就要用到re模块,它有几个方法我们需要知道：
1，compile 方法：将正则表达式的字符串形式编译为一个 Pattern 对象
2，match 方法：从起始位置开始匹配符合规则的字符串，单次匹配，匹配成功，立即返回Match对象，未匹配成功则返回None
3，search 方法：从整个字符串中匹配符合规则的字符串，单次匹配，匹配成功，立即返回Match对象，未匹配成功则返回None
4，findall 方法：匹配所有合规则的字符串，匹配到的字符串放到一个列表中，未匹配成功返回空列表
5，finditer 方法：匹配所有合规则的字符串，匹配到的字符串放到一个列表中，匹配成功返回，返回一个可叠代对象
6，split 方法：根据正则匹配规则分割字符串，返回分割后的一个列表
7，sub 方法：替换匹配成功的指定位置字符串
还有几个小细节我们需要知道,re.I使用匹配对大小写不敏感（不区分大小写）,re.S使.匹配包括换行符在内的所有字符,re.M多行匹配,re.L做本地化识别,
正则大致就是这些

weixin_43143740

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
爬虫正则总结

urllib说完，接下来说下正则，简单来说，我们在爬虫使用正则就是用提取数据的,我们使用正则里的规则在网页中匹配出我们想要的数据,它有许多规则，我们来说一下常用的几个首先是单字符匹配，. 匹配除了换行符之外的任意字符\d 匹配数字0-9 =>[0-9] => ^\D\D 匹配非数字\s 匹配空白字符(空格 \n \r \t)\S 匹配非空白字符\w 匹配单词字符[...
复制链接

扫一扫