python 爬虫正则表达式语法_Python 爬虫 - 正则表达式

最新推荐文章于 2022-02-27 21:45:54 发布

小诗璇

最新推荐文章于 2022-02-27 21:45:54 发布

阅读量67

点赞数

文章标签： python 爬虫正则表达式语法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42251888/article/details/113966324

版权

“原子是正则表达式的最基本的组成单位，而且在每个模式中最少包含一个原子。原子是由所有那些未显示指定为元字符的打印和非打印字符组成，所以在这里将其详细划分为五类进行介绍。”

①普通字符作为原子

普通字符是编写正则表达式时最常见的原子了，包括所有的大写和小写字母字符、所有数字等。例如，a——z、A——Z、0——9。

②一些特殊字符和元字符作为原子

任何一个符号都可以作为原子使用，但如果这个符号在正则表达式中有一些特殊意义，我们就必须使用转义字符“\”取消它的特殊意义，将其变成一个普通的原子。例如，所有标点符号以及一些其他符号，双引号“””、单引号“’”、“*”、“+”、“.”等，如果当原子就必须像\”、\’、\+和\.这样使用。

③一些非打印字符作为原子

所谓的非打印字符，是一些在字符串中的格式控制符号，例如空格、回车及制表符号等。例如下表所示列出了正则表达式中常用的非打印字符及其含义。

元字符(常用的元字符)

④使用“通用字符类型”作为原子

前面介绍的不管是打印字符还是非打印字符作为原子，都是一个原子只能匹配一个字符。而有时我们需要一个原子可以匹配一类字符，例如，匹配所有数字不是一个数字，匹配所有字母而不是一个字母，这时就要使用“通用字符类型”了。例如下表所示列出了正则表达式中常用“通用字符类型”及其含义。

⑤自定义原子表([])作为原子

c.模式修正符(常用的模式修正符)

“模式修正符就是几个字母，我们在每个正则表达式中可以一次使用一个，也可以连续使用多个，每一个具一定的意义。对整个正则表达式调优使用，也可以说是对正则表达式功能的扩展。”常用模式修正符有:

i - 正则内容在匹配时候不区分大小写(默认是区分的)

m - 在匹配首内容或者尾内容时候采用多行识别匹配

s - 将转义回车/n取消是为单行匹配如.

x - 忽略正则中的空白

A - 强制从头开始匹配

D - 强制$匹配尾部无任何内容包括/n

U - 禁止贪婪匹配只跟踪到最近的一个匹配符并结束，常用在采集程序上的正则表达式

d.贪婪模式与懒惰模式

正则表达式，表示重复字符，操作符，默认都是贪婪模式，'?,+,*,{}' 默认都会选择贪婪模式，会最大长度匹配字符串(量词默认首先最大匹配字符串，这些量词有：+,*,?,{m,n} 。一开始匹配，就直接匹配到最长字符串)。要切换到懒惰模式(懒惰模式)，就只是在该元字符，后面加多一个”?” 即可切换到非贪婪模式(尽可能少地匹配所搜索的字符串)。

e.Python中常用的函数

compile()

match()

search()

split()

sub()

findall()

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫正则表达式语法_Python 爬虫 - 正则表达式

“原子是正则表达式的最基本的组成单位，而且在每个模式中最少包含一个原子。原子是由所有那些未显示指定为元字符的打印和非打印字符组成，所以在这里将其详细划分为五类进行介绍。”①普通字符作为原子普通字符是编写正则表达式时最常见的原子了，包括所有的大写和小写字母字符、所有数字等。例如，a——z、A——Z、0——9。②一些特殊字符和元字符作为原子任何一个符号都可以作为原子使用，但如果这个符号在正则表达式中有...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。