Python爬虫3--正则表达式

最新推荐文章于 2022-02-19 21:06:15 发布

查尔斯-狩乃

最新推荐文章于 2022-02-19 21:06:15 发布

阅读量300

点赞数

分类专栏： Python爬虫文章标签：爬虫数据分析 python

本文链接：https://blog.csdn.net/qq_45112156/article/details/118492584

版权

本文介绍了Python正则表达式的基础，包括常用符号、预定义字符集、数量词和边界匹配。讲解了re模块的search、sub和findall方法，并通过实例展示了如何在爬虫中应用。接着，分享了爬取《斗破苍穹》全文小说和糗事百科段子信息的爬虫思路和代码片段。

摘要由CSDN通过智能技术生成

4.1正则表达式常用符号

正则表达式的一般字符有3个如下表

说明：

（1）“.”字符为匹配任意单个字符。例如，a.c可以的匹配结果为abc、aic、a&c等，但不包括换行符。

（2）“\”字符为转移字符，可以把字符改变为原来的意思。听上去不是很好理解，例如“.”字符是匹配任意的单个字符，但有时不需要这个功能，只想让它代表一个点，这时就可以使用“\.”，就能匹配"."了。

正则表达式预定义字符集共有6个如下表所示

预定义字符集	含义
\d	匹配一个数字字符。等价于【0-9】
\D	匹配一个非数字字符。等价于【^0-9】
\s	匹配任何空白字符，包括空格、制表符、换页符等。等价于【\f\n\r\t\v】
\S	匹配任何非空白字符。等价于【^\f\n\r\t\v】
\w	匹配不包括下划线的任意单词字符。等价于【A-Za-z0-9】
\W	匹配任何非单词字符。等价于【^A-Za-z0-9】

正则表达式的预定义字符集易于理解，在爬虫实战中，常常会匹配数字而过滤掉文字部分的信息。例如“数字 3450”，只需要数字信息，通过“\d+”来匹配数据，“+”为数量词，表示1次或无限次，这样便可以匹配到所有的数字信息。

正则表达式中的数量词列表

边界匹配的关键符号如下表

介绍一下(.*?)，“（）”表示括号的内容作为返回结果，“.*?”是非贪心算发，匹配任意的字符。例如：

import re

a = 'xxIxxjshdxxlovexxsffaxxpythonxx'

infos = re.findall('xx(.*?)xx',a)

print(info)

关注

专栏目录