Python爬虫学习笔记(正则表达式基础：Re库)

最新推荐文章于 2021-09-05 15:08:34 发布

二叉叔

最新推荐文章于 2021-09-05 15:08:34 发布

阅读量585

点赞数 2

分类专栏： Python爬虫文章标签： Python爬虫正则表达式

本文链接：https://blog.csdn.net/qq_33360009/article/details/104061386

版权

Python爬虫专栏收录该内容

42 篇文章 2 订阅

订阅专栏

正则表达式：是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。

re 模块使 Python 语言拥有全部的正则表达式功能，安装参考requests。

compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。

1.常用操作符

操作符	说明	实例
.（小数点）	表示任何单个字符
[ ]	字符集，对单个字符给出取值范围	[abc]表示a、b、c，[a-z]表示a到z单个字符
[ ^ ]	非字符集，对单个字符给出排除范围	[^abc]表示非a或b或c的单个字符
*	前一个字符0次或无限次扩展	abc*表示ab、abc、abcc、abccc等
+	前一个字符1次或无限次扩展	abc+表示abc、abcc、abccc等
？	前一个字符0次或1次扩展	abc？表示ab、abc
\|	左右表达式任意一个	abc\|def 表示abc、def

｛m｝	扩展前一个字符m次	ab{2}c表示abbc
｛m，n｝	扩展前一个字符m到n次	ab{1,2}c表示abc/abbc
^	匹配字符串的开头	^abc表示abc且在一个字符的开头
$	匹配字符串的结尾	abc$表示abc且在一个字符的结尾
（）	分组标记，内部只能使用丨操作符	(abc)表示abc,(abc\|def)表示abc、def
\d	数字，等价于[0-9]
\w	单词字符，等价于[A-Za-z0-9]
^ [A-Za-z]+$	表示由26个字母组合的字符串
^ [A-Za-z0-9]+$	表示由26个字母与数字组合的字符串
^ [-?\d]+$	表示整数形式的字符串
^ [0-9][0-9][0-9] $	正整数形式的字符串
[1-9]\d{5}	中国境内邮政编码
[\u4e00-\u9fa5]	匹配中文字符串
\d{3}-\d{8]丨\d{4]-\d{7}	国内电话号码（对"丨"的理解是关键）

匹配IP地址：\d+.\d+.\d+.\d+ 或 \d{1,3}.\d{1,3}.\d{1,3}.\d{1,3} 或

精确写法：由0-99：[1-9?\d]; 100-199:1\d{2}; 200-249:2[0-4]\d; 250-255:25[0-5]知：

(([1-9?\d]|1\d{2}|2[0-4]\d|25[0-5).){3}([1-9?\d]|1\d{2}|2[0-4]\d|25[0-5))

Re库：

主要功能函数

re.search() 在一个字符串中搜索匹配正则表达式的第一个位置，返回 match 对象

re.search(pattern,string,flags=0):原生字符串、代匹配字符串、控制标记

flag控制标记：
re.I:忽视大小写；
re.M:作用于^,将给定字符串的每行当做匹配开始
re.S:作用于.，默认匹配所有除换行之外的所有字符

import re
match = re.search(r'[1-9]\d{5}','BIT 100081')
if match:
print(match.group(0))

re.match() 从一个字符串的开始位置起匹配正则表达式，返回 match 对象

re.match(pattern,string,flags=0)：原生字符串、待匹配字符串、控制标记

import re
match = re.match(r'[1-9]\d{5}','100081 BIT')
if match:
print(match.group(0))

re.findall() 搜索字符串，以列表类型返回全部能匹配的子串

import re
ls = re.findall(r'[1-9]\d{5}','100081 BIT')
print(ls)

re.split() 将一个字符串按照正则表达式匹配结果进行分割，返回列表类型

re.split(pattern,string,maxsplit=0,flags=0)：原生字符串、待匹配字符串、最大分割数、控制标记

import re
ls = re.split(r'[1-9]\d{5}','BIT100081 TSU100084',maxsplit=1) #只分割第一部分
print(ls)

re.finditer()搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是 match 对象

re.finditer(pattern,string,flags=0)：:原生字符串、待匹配字符串、控制标记

import re
#ls = re.split(r'[1-9]\d{5}','BIT100081 TSU100084',maxsplit=1)
for m in re.finditer(r'[1-9]\d{5}','BIT100081 TSU100084'):
if m:
print(m.group(0))

re.sub() 在一个字符串中替换所有匹配正则表达式的淄川，返回替换后的字符串

re.sub(pattern,repl，string,count=0,flags=0)：原生字符串、替换匹配字符串的字符串，待匹配字符串、匹配的最大次数、控制标记

import re
ls = re.sub(r'[1-9]\d{5}',':zipcode','BIT100081 TSU100084')
print(ls)

一次编译多次操作：pat=re.compile(r'[1-9]\d{5}') rst =pat.def(‘BIT 100081’) #def为需要用的功能函数

re.compile() 函数：编译正则表达式模式，返回一个对象。可以把常用的正则表达式编译成正则表达式对象，方便后续调用及提高效率。

regex=re.compile(pattern, flags=0)

pattern 指定编译时的表达式字符串

flags 编译标志位，用来修改正则表达式的匹配方式。支持 re.L|re.M 同时匹配

regex.search() 在一个字符串中搜索匹配正则表达式的第一个位置，返回 match 对象
regex.match() 从一个字符串的开始位置起匹配正则表达式，返回 match 对象
regex.findall() 搜索字符串，以列表类型返回全部能匹配的子串
regex.split() 将一个字符串按照正则表达式匹配结果进行分割，返回列表类型
regex.finditer()搜索字符串返回一个匹配结果的迭代类型，每个迭代元素是 match 对象
regex.sub() 在一个字符串中替换所有匹配正则表达式的淄川，返回替换后的字符串

3.Re库的Match对象的属性

.string 待匹配的文本

.re 匹配时使用的pattern 对象（正则表达式）

.pos 正则表达式搜索文本的开始位置

.endpos 正则表达式搜索文本的结束位置

Match对象的方法

.group(0) 获得匹配后的字符串

.start() 匹配字符串在原始字符串的开始位置

.end() 匹配字符串在原始字符串的结束位置

.span() 返回（.start(), .end())

4.Re库的贪婪匹配（默认最长匹配）和最小匹配

贪婪匹配：re.search(r’PY.*N’,’PYANBNCNDN’)

最小匹配：re.search(r’PY.*?N’,’PYANBNCNDN’)

最小匹配操作符

操作符	说明
*？	前一个字符0次或无限次扩展，最小匹配
+？	前一个字符1次或无限次扩展，最小匹配
？？	前一个字符0次或1次扩展，最小匹配
{m,n}?	扩展前一个字符m至n次（含n），最小匹配