还不会正则？

最新推荐文章于 2024-03-14 00:00:46 发布

python爬虫人工智能大数据

最新推荐文章于 2024-03-14 00:00:46 发布

阅读量152

点赞数

来源：Python全家桶链接：

https://mp.weixin.qq.com/s/-a0UMd2cr5sjBRv0ol4GEQ

前戏

最近算法的精度受限于图片数量的不足，导致精度无法提升，需要通过爬虫来爬取大量的图片来丰富图片数据集。作为整个公司唯二会Python的工程师之一(也许是另一位Python大佬太优秀，搬砖的任务还得小弟亲自来)，爬虫的任务当仁不让的就落到小弟(小编本文)身上了。苦于好久没有做过爬虫，正则表达式的一些使用和匹配规则记得不太清楚了，于是就系统的复习了一遍。

今天就借此机会给大家分享一下正则表达式的使用。

预热

概念：

一说正则表达式，也许很多人都清楚怎么使用，却说不出正则表达式到底是什么，所以先看看百度百科是如何定义正则表达式的：“正则表达式是对字符串（包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为“元字符”））操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式，模式描述在搜索文本时要匹配的一个或多个字符串。"

目的：

从这个定义中可以看出正则表达式无非做两件事：

1.写正则表达式；

2.正则匹配、提取结果

特点：

1. 灵活性、逻辑性和功能性非常强；

2. 可以迅速地用极简单的方式达到字符串的复杂控制。

3. 对于刚接触的人来说，比较晦涩难懂。

场景：

当然正则表达式应用的场景也非常多。常见的比如：搜索引擎的搜索、爬虫结果的匹配、文本数据的提取等等都会用到，所以掌握甚至精通正则表达式是一个硬性技能，非常必要。

小试牛刀

上边对正则表达式的一些概念性的东西做了一个简单的说明，要是感觉还不是很理解，可以找度娘深入了解一下。接下来就是一些操作了。

不知道别的语言是如何使用正则表达式的，在Python中需要通过正则表达式对字符串进行匹配的时候，直接使用Python的内置模块re即可。

re.match的使用

re.match() 能够匹配出以固定字符开头的字符串

单个字符的匹配

下面的表是正则表达式的单个字符的匹配。

640?wx_fmt=png

下面通过一些简单的实例来看几个用法，这一部分很简单，剩余的就不做过多的演示，大家可以参考上边的表格自己去实操一下

匹配多个字符

在实际工作中大多时候匹配的是多个字符，不再是一个字符。所以这一部必须熟悉。

640?wx_fmt=png

下面演示一下多字符匹配使用：

匹配开头结尾

这种场景在实际中也经常用得到。比如当我们需要筛选某一个文件里面的邮箱时，就要使用到$规则去匹配。下面就以163.com结尾邮箱为例，演示一段代码：

运行结果如下：

很明显可以发现，满足以条件的就只有一个，其余两个不是以163.com就被很好的过滤掉了。

640?wx_fmt=png

大显身手

上边看完了基础用法之后，接下来看几个正则表达式的高级方法的使用。

search----->>结果是字符串

需求：匹配出微信某篇文章的阅读数

findall---->>结果是列表

需求：统计出python、c、c++相应文章阅读的次数

sub 将匹配到的数据进行替换---->>结果仍然是字符串
需求：将匹配到的字符替换为Python全家桶

split 根据匹配进行切割字符串---->>返回一个列表

需求：切割字符串“age:33 lph python全家桶”

r 表示原生字符串

与大多数编程语言相同，正则表达式里使用"\"作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"\"，那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\"：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。

Python里的原生字符串很好地解决了这个问题，有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

养精蓄锐

看了上边的介绍，相信大家对正则表达式使用有了一个清晰的认识。这里再给大家列举一些工作中经常会用到的一些正则表达式。

到这里，就已经将字符串的基本使用介绍完了，当然这个也是一些初级知识，想要在工作中对正则表达式做到游刃有余的话，还需要大家私下不断地学习与操作。

python爬虫人工智能大数据公众号

640?wx_fmt=gif

python爬虫人工智能大数据

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。