python之正则表达式（基础篇）

最新推荐文章于 2023-07-31 18:43:27 发布

WangGangdan

最新推荐文章于 2023-07-31 18:43:27 发布

阅读量949

点赞数 3

分类专栏：学习 python 笔记网络爬虫文章标签： python 网络爬虫正则表达式

本文链接：https://blog.csdn.net/qq_41589031/article/details/81952039

版权

本文介绍了Python中正则表达式的基础知识，包括findall方法的使用、常见匹配模式如d和D、中括号的或关系、概括字符集如w和W、数量词的运用以及贪婪与非贪婪匹配的概念。通过实例展示了如何从字符串中提取所需信息。

摘要由CSDN通过智能技术生成

在向网页进行了提交请求之类的之后，我们可以得到了网页的返回内容，里面自然而然会有我们想要的数据，但是html元素文本这么多，我们不可能一一去找我们需要的数据，这时就需要用到正则表达式了，正则表达式是学爬虫必须学的内容，而且不止python可以用，java等其他语言都可以用，所以学了好处大大。

什么是正则表达式？

正则表达式就是一个特殊的字符序列，可以用于检测一个字符串是否与我们的所设定的字符串相匹配。功能有快速检索文本和快速替换一些文本的操作。

python里面有个处理正则表达式的库 re。有个方法

findall(pattern,string,flags)

用来匹配正则达式，我们就先用这个方法处理下。

参数如下：

pattern：正则表达式
string：要进行匹配的字符串
flags：匹配的模式
结果是一个匹配内容的列表。

常见的匹配模式

模式	描述
\w	匹配字母、数字及下划线
\W	匹配不是字母、数字及下划线的字符
\s	匹配任意空白字符，等价于[\t\n\r\f]
\S	匹配任意非空字符
\d	匹配任意数字，等价于[0-9]
\D	匹配任意非数字字符
\A	匹配字符串开头
\Z	匹配字符串结尾，如果存在换行，只匹配到换行前的结束字符串
\z	匹配字符串结尾，如果存在换行，同时还会匹配换行符
\G	匹配最后匹配完成的位置
\n	匹配一个换行符
\t	匹配一个制表符
^	匹配一行字符串的开头
$	匹配一行字符串的结尾
.	匹配任意字符，除了换行符，当re.DATALL标记被指定时，则可以匹配包括换行符的任意字符
[…]	用来表示一组字符，单独列出，比如[amk]匹配a、m或k
[^…]	不在[]中的字符，比如[^abc]匹配除了a、b、c之外的字符
*	匹配0个或多个表达式
+	匹配1个或多个表达式
?	匹配0个或1个前面的正则表达式定义的片段，非贪婪模式
{n}	精确匹配n个前面的表达式
{n,m}	匹配n到m次由前面正则表达式定义的片段，贪婪模式
a\|b	匹配a或b