Python爬虫之正则表达式

最新推荐文章于 2024-04-13 17:44:34 发布

马小瑄

最新推荐文章于 2024-04-13 17:44:34 发布

阅读量705

点赞数

文章标签：正则表达式 python 爬虫程序人生经验分享

本文链接：https://blog.csdn.net/slw213106/article/details/122341583

版权

本文介绍了Python爬虫中正则表达式的使用，包括操作符、常用方法如search、match、findall、split、finditer、sub等，以及Match对象和正则匹配策略。重点讲解了正则表达式的各种匹配模式及其在爬虫中的应用。

摘要由CSDN通过智能技术生成

爬虫的分类：网络爬虫可分为通用爬虫和聚焦爬虫两种

通用爬虫：通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。
聚焦爬虫：聚焦爬虫，是"面向特定主题需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。

\S ：与 \s 相反
\w ：
- 对于 str 类型，匹配任何 单词字符 ，包括 [a-zA-Z0-9_] 以及其它单词字符
- 对于 str 类型开启 re.ASCII 标志或者 bytes 类型，只匹配 [a-zA-Z0-9_]
\W ：与 \w 相反
[ ] ：匹配 括号内所包含的任意一个字符
- 若连字符 (-) 出现在字符串中间则表示范围，出现在首位则作普通字符；
- 若脱字符 (^) 出现在字符串首位则表示排除，出现在中间则作普通字符
\s ：
- 对于 str 类型，匹配任何 空白字符 ，包括 [\t\n\r\f\v] 以及其它空白字符
- 对于 str 类型开启 re.ASCII 标志或者 bytes 类型，只匹配 [\t\n\r\f\v]
. ：匹配除换行符之外的 所有字符
^ ：匹配字符串的 开始位置
$ ：匹配字符串的 结束位置
* ：匹配字符串 零次或多次 ，在后面加上 ? 表示启用非贪婪模式匹配（默认为贪婪模式）
+ ：匹配字符串 一次或多次 ，在后面加上 ? 表示启用非贪婪模式匹配（默认为贪婪模式）
? ：匹配字符串 零次或一次 ，在后面加上 ? 表示启用非贪婪模式匹配（默认为贪婪模式）