MOOC_北理_Python爬虫学习_6（Re 正则表达式库）

最新推荐文章于 2022-09-16 23:17:04 发布

ExcitingYi

最新推荐文章于 2022-09-16 23:17:04 发布

阅读量366

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/ExcitingYi/article/details/106149954

版权

正则表达式：regular expression / regex / RE
通用的字符串表达框架。
简介表达一组字符串的表达式。
针对字符串表达“简介”和“特征”的思想工具
判断某字符串的特征归属

一组字符串：‘PY’ ‘PYY’ ‘PYYY’ …
正则表达式： PY+

一组字符串： ‘PY’ 开头，后续存在不多于10个字符，后续字符不能包含’P’或’Y’。
正则表达式： PY[^PY]{10}

作用：

表达文本类型的特征（病毒、入侵等）
同时查找或替换一组字符串。
匹配字符串的全部或部分。
主要应用在字符串匹配上。

语法：
如 P(Y|YT|YTH|YTHO)?N
常用操作符：

操作符	说明	实例
.	表示任何单个字符
[ ]	字符集，对单个字符给出取值范围	[abc]表示a或b或c，[a-z]表示a到z单个字符
[^ ]	非字符集，对单个字符给出排除范围	[^abc]表示非a或b或c的单个字符
*	前一个字符0次或无限次扩展	abc*表示ab、abc、abcc、abccc…
+	前一个字符1次或无限次扩展	abc+i表示abc、abcc、abccc…
？	前一个字符0次或1次扩展	abc？表示ab或abc
`\|`	左右表达式任意一个	`abc\|` def表示abc或def
{m}	扩展前一个字符m次	ab{2}c表示abbc
{m,n}	扩展前一个字符串m至n次（含n）	ab{1,2}c表示abc或abbc
^	匹配字符串开头	^abc表示abc且在一个字符串的开头
$	匹配字符串结尾	abc$表示abc且在一个字符串的结尾
()	分组标记，内部只能使用`\|`操作符	(abc)表示abc，`(abc\|def)`表示abc或def
\d	数字，等价于[0-9]
\w	单词字符，等价于[A-Za-z0-9_]

经典实例：

符号	说明
`^[A-Za-z]+$`	由26个大小写字母组成的字符串（感觉这个$不要也没事啊）
`^[A-Za-z0-9]+$`	由26个大小写字母和数字组成的字符串。
`^-?\d+$`	整数形式的字符串（可正可负）
`[1-9]\d{5}`	中国境内邮政编码，6位。
`[\u4e00-\u9fa5]`	匹配中文字符
`\d{3}-\d{8}\|\d{4}-\d{7}`	国内电话号码 010-68913536（不知道这个电话号码是啥。。。mooc里来的。）
`(([1-9]?\d\|1\d{2}\|2[0-4]\d\|25[0-5]).){3}(([1-9]?\d\|1\d{2}\|2[0-4]\d\|25[0-5]).)`	IP地址

基本使用：
raw string类型（原生字符串类型）（不包含转义符（\）的字符串）。表示正则表达式。表示为r'text'
如： r'[1-9]\d{5}'

主要功能函数：

函数	说明
re.search()	在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象。
re.match()	从一个字符串的开始位置起匹配正则表达式，返回match对象。
re.findall()	搜索字符串，以列表类型返回全部能匹配的子串。
re.split()	将一个字符串按照正则表达式匹配结果进行分割，返回列表类型。
re.finditer()	搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象。
re.sub()	在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串。

re.search(patten,string,flags = 0)

pattern：正则表达式的字符串或原生字符串表示
string：待匹配的字符串
flags：正则表达式使用时的控制标记。
3.1 re.IGNORECASE：忽略正则表达式的大小写。
3.2 re.M re.MULTILINE：正则表达式中的^操作能够将给定字符串的每行当作匹配开始。
3.3 re.S re.DOTALL：正则表达式中的.操作符能够匹配所有字符（默认匹配除行换行符外所有符号）

>>> import re
>>> match = re.search(r'[1-9]\d{5}','BIT 100081')
>>> if match：
	print(match.group(0))

100081

re.match(pattern,string,flags = 0)
三个参数和search相同。

>>> match = re.match(r'[1-9]\d{5}','BIT 100081')
>>> if match：
	print(match.group(0))
 
>>> match.group(0)
Traceback (most recent call last):
    match.group(0)
AttributeError: 'NoneType' object has no attribute 'group'

因为match函数是从开始位置匹配，而开始位置的文本时’BIT’所以match没有返回结果，如果调整string 的信息就可以。

>>> match = re.match(r'[1-9]\d{5}','100081 BIT')
>>> if match：
	match.group(0)

'100081'

re.findall(pattern,string,flags = 0)
三个参数同上。

>>> ls = re.findall(r'[1-9]\d{5}','100081 BIT TSU 100083 YYY 1100822')
>>> print(ls)
['100081', '100083', '110082']

最后一个时11008222 我以为会出现110082 和100822两个的。但只有一个。

>>> ls = re.findall(r'[1-9]\d{5}','100081111111 BIT TSU 100083 YYY 1100822')
>>> print(ls)
['100081', '111111', '100083', '110082']

re.split(pattern,string,maxsplit = 0,flags = 0)
maxsplit：最大分割数，超出分割数的剩余部分作为最后一个元素输出。

>>> re.split(r'[1-9]\d{5}','100081111111 BIT TSU 100083 YYY 1100822')
['', '', ' BIT TSU ', ' YYY ', '2']
>>> re.split(r'[1-9]\d{5}','100081111111 BIT TSU 100083 YYY 1100822',maxsplit = 2)
['', '', ' BIT TSU 100083 YYY 1100822']

re.finditer(pattern,string,flags = 0)

for m in re.finditer(r'[1-9]\d{5}','100081111111 BIT TSU 100083 YYY 1100822')：
	if m :
		print(m.group(0))

100081
111111
100083
110082

re.sub(pattern,repl,string,count = 0, flags = 0)
repl：替换匹配字符串的字符串
count：匹配的最大次数。

re.sub(r'[1-9]\d{5}','change','100081111111 BIT TSU 100083 YYY 1100822')

'changechange BIT TSU change YYY change2'

面向对象用法：编译后的多次操作。

regex = re.compile(pattern,flags = 0)
将正则表达式的字符串形式编译成正则表达式对象

>>> pat = re.compile(r'[1-9]\d{5}')
>>> rst = pat.search('BIT 100081')
#可以调用search match等六种方法。

match对象类型：

>>> import re
>>> match = re.search(r'[1-9]\d{5}','BIT 100081')
>>> if match：
	print(match.group(0))
 
100081
>>> type(match)
<class 're.Match'>

Match 对象的属性

属性	说明
.string	待匹配文本
.re	匹配时使用的pattern对象（就是正则表达式）
.pos	正则表达式搜索文本的开始位置
.endpos	正则表达式搜索文本的结束位置

方法：

方法	说明
.group(0)	获得匹配后的字符串
.start()	匹配字符串在原始字符串的开始位置
.end	匹配字符串在原始字符串的结束位置
.span()	返回（.start(),.end()）

>>> m = re.search(r'[1-9]\d{5}','BIT100081 TTT100082') #
>>> m.string
'BIT100081 TTT100082'
>>> m.re
re.compile('[1-9]\\d{5}')
>>> m.pos
0
>>> m.endpos
19
>>> m.group(0)
'100081'
>>> m.start()
3
>>> m.end()
9
>>> m.span()
(3, 9)
'''search只返回搜索的第一个匹配的字符串。如果想要多个可以使用
for m in re.finditer(r'[1-9]\d{5}','BIT100081 TTT100082')'''

贪婪匹配和最小匹配：
Re库默认贪婪匹配，输出匹配最长的子串
贪婪匹配：

>>> match = re.search(r'PY.*N','PYANBNCNDN')
>>> match.group(0)
'PYANBNCNDN'

最小匹配：

>>> match = re.search(r'PY.*?N','PYANBNCNDN')
>>> match.group(0)
'PYAN'
如果没有*，只有？
那么字符串'PYABNBNCNDN'就没有输出了。

最小匹配操作符：

操作符	说明
*?	前一个字符0或无限次扩展，最小匹配。
+?	前一个字符1或无限次扩展最小匹配。
??	前一个个字符0或1次扩展，最小匹配。
{m,n}	扩展前一个字符m至n次（含n），最小匹配。

所有操作符，表长度。都可以在该操作符后加？表最小匹配。