Python 正则表达式

最新推荐文章于 2023-07-12 08:57:45 发布

极客猴

最新推荐文章于 2023-07-12 08:57:45 发布

阅读量91

点赞数

分类专栏：零基础学Python网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chanql123/article/details/100103237

版权

零基础学Python网络爬虫专栏收录该内容

13 篇文章 3 订阅

订阅专栏

0?wx_fmt=gif

0?wx_fmt=png

我们能够使用 urllib 向网页请求并获取其网页数据。但是抓取信息数据量比较大，我们可能需要其中一小部分数据。对付刚才的难题，就需要正则表达式出马了。正则表达式能帮助我们匹配过滤到我们需要的数据，但它学习起来非常枯燥无味。你可能会说，我还没有开始想学习正则表达式，你就来打击我？莫慌！层层递进地学习，一步一个脚印地学习，很快就会学会了。对于爬虫，我觉得学会最基本的符号就差不多了。

1 正则表达式

下面是一张关于正则表达式字符的图，图片资料来自CSDN。先把图中字符了解清楚，基本上算是入门。

0?wx_fmt=png

2 re 模块

Python 自1.5版本起通过新增 re （Regular Expression 正则表达式）模块来提供对正则表达式的支持。使用 re 模块先将正则表达式填充到 Pattern 对象中，再把 Pattern 对象作为参数使用 match 方法去匹配的字符串文本。match 方法会返回一个 Match 对象，再通过 Match 对象会得到我们的信息并进行操作。下面介绍几个 re 常用的函数。

2.1 compile 函数

compile 是把正则表达式的模式和标识转化成正则表达式对象，供 match() 和 search() 这两个函数使用。它的函数语法如下：

0?wx_fmt=png

第一个参数是pattern，指的正则表达式。
第二个参数flags是匹配模式，是个可选参数。可以使用按位或’|’表示同时生效，也可以在正则表达式字符串中指定。匹配模式有以下几种：

0?wx_fmt=png

该方法返回的结果是一个 Pattern 对象。

2.2 match 函数

match()函数只在字符串的开始位置尝试匹配正则表达式，也就是说只有在 0 位置匹配成功的话才有返回。如果不是开始位置匹配成功的话，match() 就返回 none。它的函数语法如下：

0?wx_fmt=png

第一个参数：匹配的正则表达式
第二个参数：要被匹配的字符串
flags 是可选参数，跟 compile 用法相似
匹配成功 re.match 方法返回一个匹配的对象，否则返回None。要想获得匹配结果，既可以使用groups()函数获取一个包含所有字符串的元组（从 1 到所含的小组号），也可以使用group(组号)函数获取某个组号的字符串。

match 函数用法的示例代码：

0?wx_fmt=png

2.3 search 函数

search() 函数是扫描整个字符串来查找匹配，它返回结果是第一个成功匹配的字符串。

0?wx_fmt=png

参数用法以及返回结果跟match函数用法相同。

search 函数用法的示例代码：

0?wx_fmt=png

2.4 findall 函数

findall函数在字符串中搜索子串，并以列表形式返回全部能匹配的所有子串。

0?wx_fmt=png

参数用法以及返回结果跟match函数用法相同。

findall 函数用法的示例代码：

0?wx_fmt=png

作者：猴哥，公众号：极客猴。爱好读书，喜欢钻研技术，梦想成为文艺青年的IT Boy。

- END -

0?wx_fmt=jpeg

极客猴

分享干货的公众号

0?wx_fmt=jpeg

0?wx_fmt=jpeg

长按指纹 > 识别图中二维码 > 添加关注

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python 正则表达式

我们能够使用 urllib 向网页请求并获取其网页数据。但是抓取信息数据量比较大，我们可能需要其中一小部分数据。对付刚才的难题，就需要正则表达式出马了。正则表达式能帮助我们匹配过滤到我们需要的数据，但它学习起来非常枯燥无味。你可能会说，我还没有开始想学习正则表达式，你就来打击我？莫慌！层层递进地学习，一步一个脚印地学习，很快就会学会了。对于爬虫，我觉得学会最基本的符号就差不多了。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。