python之正则表达式

小白菜00

已于 2023-08-07 17:04:44 修改

阅读量1.8k

点赞数 1

分类专栏： python 文章标签： python 正则表达式 mysql

于 2023-08-05 19:23:12 首次发布

本文链接：https://blog.csdn.net/m0_60027772/article/details/132123279

版权

python 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

正则表达式

正则表达式又称规则表达式，是使用单个字符串来描述、匹配某个句法规则的字符串，常被用来检索、替换那些符合某个模式的文本
正则表达式就是使用元字符进行排列组合用来匹配字符串，并通过规则去验证字符串是否匹配
python正则表达式，使用re模块，并基于re模块的三个基础方法来做正则匹配（match、search、findall）

python正则表达式方法

使用时先导入re模块：import re

match

语法：变量=re.match(匹配规则,被匹配的字符串)

注意：从被匹配的开头进行匹配，匹配成功则返回匹配对象，匹配不成功则返回None

取得下标：变量.span()

取得匹配字符串：变量.group()

#导入re模块
import re
s="python language"
result=re.match("python",s)
print(result)#<re.Match object; span=(0, 6), match='python'>
print(result.span())#匹配的下标
print(result.group())#匹配的字符串

search

语法：变量=re.search(匹配规则,被匹配的字符串)

作用：搜索整个字符串，找出匹配的，从前向后，找到第一个后就停止不会继续向后，整个字符串都找不到，就返回None

取得下标：变量.span()

取得匹配字符串：变量.group()

#导入re模块
import re
s="i like python very much python yyds"
result=re.search("python",s)
print(result)#<re.Match object; span=(7, 13), match='python'>
print(result.span())
print(result.group())

findall

语法：列表对象=re.findall(匹配规则,被匹配的字符串)

作用：匹配整个字符串，找出全部匹配项，找不到则返回list:[]

#导入re模块
import re
s="i like python very much python yyds"
result=re.findall("python",s)
print(result)#['python', 'python']

finditer

语法：列表对象=re.findall(匹配规则,被匹配的字符串)

作用：匹配字符串中的所有内容，返回的是迭代器。

import re
result=re.finditer(r"\d+","我的电话号码是10086，女朋友电话号码是10010")
print(result)#<callable_iterator object at 0x0000029E66A093C0>
for i in result:
    print(i.group())
# 10086
# 10010

注意：

字符串r标记表示当前字符串是原始字符串，即内部的转义字符无效而是普通字符
从迭代器中拿到内容需要i.group()

compile

前言：正则表达式可能会被写的很长，此时复杂的正则可能有需要反复的使用，此时就可以把该正则提前加载好，后面用的时候直接拿来用就能够提高一点点效率

语法：预加载正则表达式=re.compile(r"需要编译的正则表达式")

import re
#预加载正则表达式
obj=re.compile(r"\d+")#很复杂的正则表达式
result=obj.findall("我的电话号码是10086，女朋友电话号码是10010")
print(result)#['10086', '10010']

元字符匹配

元字符

含义：具有固定含义的特殊符号

字符	功能
.（点）	匹配任意一个字符（除了\n），\.匹配自身
[]	匹配[]中列举任意一个字符
[^……]	匹配除了字符组中的所有字符
\d	匹配数字，即0-9
\D	匹配非数字
\s	匹配空白，即空格、tab键
\S	匹配非空白
\w	匹配大小写英文字母数字及下划线（单词字符）
\W	匹配非单词字符
\n	匹配一个换行符
\t	匹配一个制表符
^	匹配字符串开头
$	匹配字符串结尾
\|	匹配左右任意1个表达式
()	匹配括号里的内容

注意：元字符仅能匹配单个字符

量词

含义：控制前面元字符出现的次数

量词	功能
*	匹配前一个规则字符重复出现了0到无数次
+	匹配前一个规则字符重复出现了1到无数次
?	匹配前一个规则字符重复出现了0或1次
{m}	匹配前一个规则字符重复出现了m次
{m,}	匹配前一个规则字符重复出现了m到无数次
{m,n}	匹配前一个规则字符重复出现了m到n次

贪婪匹配和惰性匹配

匹配方式	功能
.*（贪婪匹配）	尽可能多的匹配字符
.*?（惰性匹配）	尽可能少的匹配字符

举例：玩吃鸡游戏，晚上一起上游戏，干嘛呢？打游戏啊

玩.*游戏：玩吃鸡游戏，晚上一起上游戏，干嘛呢？打游戏
玩.*?游戏： 玩吃鸡游戏

正则表达式的group

语法

给匹配到的分组正则命名：(?P<名字>正则表达式)

获取对应分组匹配的内容：match对象.group("名字")

案例

import re
s="""
    <div class='a'><span id='1'>周杰伦</span></dir>
    <div class='b'><span id='2'>郭麒麟</span></dir>
    <div class='c'><span id='3'>周星驰</span></dir>
    <div class='d'><span id='4'>刘德华</span></dir>
"""
obj=re.compile(r"<div class='(?P<ch>.*?)'><span id='(?P<num>\d+)'>(?P<name>.*?)</span></dir>",re.S)
#注意这里的re.S代表让.也可以匹配换行符
result=obj.finditer(s)
for i in result:
    print(i.group("name"))# 周杰伦 郭麒麟 周星驰 刘德华