Python爬虫之正则表达式
爬虫的分类:网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种
- 通用爬虫:通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。
- 聚焦爬虫:聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于:聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。
1.操作符
-
\S
:与\s
相反 -
\w
: -
- 对于 str 类型,匹配任何 单词字符 ,包括 [a-zA-Z0-9_] 以及其它单词字符
- 对于 str 类型开启 re.ASCII 标志或者 bytes 类型,只匹配 [a-zA-Z0-9_]
-
\W
:与\w
相反 -
[ ]
:匹配 括号内所包含的任意一个字符 -
- 若连字符 (-) 出现在字符串中间则表示范围,出现在首位则作普通字符;
- 若脱字符 (^) 出现在字符串首位则表示排除,出现在中间则作普通字符
-
\s
: -
- 对于 str 类型,匹配任何 空白字符 ,包括 [\t\n\r\f\v] 以及其它空白字符
- 对于 str 类型开启 re.ASCII 标志或者 bytes 类型,只匹配 [\t\n\r\f\v]
-
.
:匹配除换行符之外的 所有字符 -
^
:匹配字符串的 开始位置 -
$
:匹配字符串的 结束位置 -
*
:匹配字符串 零次或多次 ,在后面加上 ? 表示启用非贪婪模式匹配(默认为贪婪模式) -
+
:匹配字符串 一次或多次 ,在后面加上 ? 表示启用非贪婪模式匹配(默认为贪婪模式) -
?
:匹配字符串 零次或一次 ,在后面加上 ? 表示启用非贪婪模式匹配(默认为贪婪模式)