python爬虫进阶系列一：正则表达式

最新推荐文章于 2024-06-22 09:36:52 发布

国家一级假勤奋研究牲

最新推荐文章于 2024-06-22 09:36:52 发布

阅读量719

点赞数 6

分类专栏： python-网络爬虫文章标签：字符串 python 正则表达式编程语言 re

本文链接：https://blog.csdn.net/Enternalwiser/article/details/108379990

版权

python-网络爬虫专栏收录该内容

9 篇文章 0 订阅

订阅专栏

python爬虫进阶系列一正则表达式

概述
原子
元字符
模式修正
贪婪模式和懒惰模式
re库

由于爬虫的学习之路还远没有结束，所以推出新的系列——爬虫进阶，希望大家多多支持！

概述

什么是正则表达式呢？简单来说就是描述字符串排列的一系列规则。正则表达式主要用于字符串的匹配，在搜索特定信息时，正则表达式就能大显神通了。在python库中我们需要导入re库来实现正则表达式的功能

原子

原子是正则表达式最基本的组成单位，伟哥正则表达式中必须包含至少一个原子，原子一般包括下面几类：

普通字符：包括数字，大小写字母，下划线
非打印字符：用于控制格式的字符，如“\n”
通用字符 : 即一个原子可以匹配一类字符，大致有以下几种：

\w 匹配任意一个数字，字母和下划线
\W 匹配除数字，字母，下划线以外的任意字符
\d 匹配一个十进制数
\D 匹配除十进制数以外的任意字符
\s 匹配任意一个空白字符
\S 匹配除空白字符以外的任意字符

相信大家已经找到规律了！是的我们只需要记住小写通用字符代表的含义，那么它对应的大写字符就是取反

原子表：使用原子表来定义一组原子，匹配时只需要满足任意一个存在于原子表中的原子即可，我们使用中括号[ ] 来表示原子表，比如[xyz]就是匹配x, y, z中任意一个字符

元字符

正则表达式中具有特殊含义的字符，常用的有下面几种

. 匹配除换行符\n以外的任意字符
^ 匹配字符串的开始位置
$ 匹配字符串的结束位置
* 匹配0次，1或多次前面的原子
? 匹配0次，或1次前面的原子
+ 匹配1次，或多次前面的原子
{n} 前面的原子恰好出现n次
{n,} 前面的原子至少出现n次
{n,m} 前面的原子至少出现n次，最多出现m次
| 模式选择
() 模式单元

下面我们举一些例子来说明这些元字符的用法

".python."
匹配前后是一个除换行符以外的任意字符的，中间是python的字符串

"^abc"
匹配开头是abc的字符串（注意这里返回的只有abc）

"de$"
匹配结尾为de的字符串（返回的只有de）

"py.*n"
匹配开头为py，结尾为n中间为除了换行符外的任意数量的任意字符的字符串
比如python

"py.{3,}n"
匹配开头为py， 结尾为n中间至少包含三个不是换行符的任意字符，比如python

"[abc].{2}f|abc.*f"
模式选择符| 
匹配前后两个模式中的一个

"(cd){1,}"
模式单元符，将小括号中的视为整体（视为一个大原子）
所以上面匹配至少一个cd（连在一起的）的字符串

模式修正

通过不改变正则表达式的情况下，通过模式修正符来使正则表达式更高匹配更多，常用的如下：

I 匹配忽略大小写
M 多行匹配
L 本地化识别匹配
U 根据UNICODE字符来解析字符
S 让.匹配任意字符

模式修正需要结合re一起使用

import re
pattern = "python"
string = "asdfpyTHon_dd"
result = re.search(pattern, string, re.I)
print(result)

这里我们导入re库，使用search来匹配字符串

这里三个参数，第一个是匹配的模式——也是就正则表达式；第二个参数是匹配的字符串；第三个是模式修正

贪婪模式和懒惰模式

从名字也可以看出，贪婪模式就是尽可能多匹配，懒惰模式就是尽量少匹配

一般我们想要在某些字符中匹配任意的字符，我们使用“.*”这时默认使用贪婪模式，转化为懒惰模式只需要后面加？即可

re库

这里简单介绍几个re库中常用的函数

match()

函数原型：

match(pattern, string, flag)

前两个参数是匹配的模式和字符串，最后一个是可选选项可以填上模式修改

import re
string = 'pYthondd'
pattern = 'python.'
res = re.match(pattern, string, re.I)
print(res)

输出结果：

<re.Match object; span=(0, 7), match='pYthond'>

注意match只会从头开始匹配！！！

如果改成这样：

string = 'apYthondd'

match将返回None

search()

如果我们想要在全文匹配字符串怎么办呢？我们可以使用search，具体用法跟match一样

import re
string = 'adcpYthondd'
pattern = 'python.'
res = re.search(pattern, string, re.I)
print(res)

输出结果：

<re.Match object; span=(2, 9), match='pYthond'>

compile()&findall()

这里又出现一个问题，search无法匹配多个该模式的字符串

所以我们使用find_all

string = 'ddpYthonddpythonad'
pattern = 'python.'
res = re.compile(pattern, re.I).findall(string)
print(res)

我们首先使用compile进行预编译，也就是确定匹配模式，再使用find all来查找字符串中所有符合正则表达式的字符串

输出结果：

['pYthond', 'pythona']
# 以列表的形式返回

sub()

如果我们想要根据正则表达式来实现替换字符串的功能，我们使用sub()函数

我们先来看看函数模型

re.sub(pattern, rep, string, max)

第一个参数还是匹配模式，也就是正则表达式；第二个参数是需要替换的字符串；第三个是总的字符串；最后一个参数是最大的替换次数

string = 'ddpythonddpythonad'
pattern = 'python.'
res = re.sub(pattern, 'aaa', string, 1)
print(res)

输出结果：

ddaaadpythonad

返回替换后的字符串，由于限制了替换次数，所以后面一个符合的字符串段没有替换

以上就是正则表达式的全部内容啦！觉得有点收获的不要忘了点赞收藏哟❤

国家一级假勤奋研究牲

关注

6
点赞
踩
23

收藏

觉得还不错? 一键收藏
打赏
0
评论
python爬虫进阶系列一：正则表达式

python爬虫正则表达式
复制链接

扫一扫

专栏目录

python爬虫进阶系列一 ：正则表达式

python爬虫进阶系列一 正则表达式

概述

原子

元字符

模式修正

贪婪模式和懒惰模式

re库

match()

search()

compile()&findall()

sub()

python爬虫进阶系列一：正则表达式

python爬虫进阶系列一正则表达式