python re模块学习--常用的正则符号

最新推荐文章于 2025-04-08 08:00:00 发布

悠闲的小鱼Liu

最新推荐文章于 2025-04-08 08:00:00 发布

阅读量1k

点赞数 1

分类专栏： python 文章标签： python 正则表达式

本文链接：https://blog.csdn.net/m0_60392490/article/details/120384898

版权

python 专栏收录该内容

6 篇文章

订阅专栏

常用的正则符号：

英文状态的句号点 .
英文状态下的中括号 []
英文状态下的圆括号 ()
英文状态的大括号 {}
英文状态下的问号？
加号 +
星号 *
反斜杠 \

1、英文状态的句号点 . ：指代除了换行符\n以外的任意字符。

import re
s = 'Life was like a box of chocolates, you never know what you are gonna get'
f1 = re.findall('chocol.....', s)
f2 = re.findall('chocol\n....', s) 
print(f1)
print(f2)

# f1输出结果： ['chocolates,']
# f2输出结果： []

2、英文状态下的中括号 []：中括号内的内容指代所需查找字符集合。

[0-9]：表示0123456789
[a-z]：表示小写的26个字母
[A-Z]：表示大写的26个字母

import re
s = '123456789chocolates123456789'
f = re.findall('o[clz]', s)  # [cl]表示'c'或者'l'或者'z' 
f1 = re.findall('[0-9]', s)  
f2 = re.findall('[a-z]', s)  
print(f)
print(f1)
print(f2)

# f输出结果： ['oc', 'ol']
# f1输出结果： ['1', '2', '3', '4', '5', '6', '7', '8', '9', '1', '2', '3', '4', '5', '6', '7', '8', '9']
# f2输出结果： ['c', 'h', 'o', 'c', 'o', 'l', 'a', 't', 'e', 's']

3、英文状态下的圆括号 ()：圆括号内的内容就是别截取的内容。

import re
s = 'Life was like a box of chocolates, you never know what you are gonna get'
f = re.findall('choco(lates)', s)  # 输出圆括号内的内容
print(f)

# f输出结果： ['lates']

4、英文状态的大括号 {}：大括号内的内容表示匹配前一个字符特定的次数或范围。

{m}：匹配前一个字符m次；
{m,}：匹配前一个字符至少m次；
{，n}：匹配前一个字符至多n次；
{m,n}：匹配前一个字符m~n次；

import re
s = '123456789chocolates'
f = re.findall('1\d{3}', s)   # \d：代表0~9任一数字，{3}：指匹配大括号前一个字符3次
f1 = re.findall('1\d{3,}', s)   # {3,}：指匹配大括号前一个字符至少3次
f2 = re.findall('1\d{,5}', s)   # {3,5}：指匹配大括号前一个字符至多5次
f3 = re.findall('1\d{3,5}', s)   # {3,5}：指匹配大括号前一个字符至少3次，至多5次
print(f)
print(f1)
print(f2)
print(f3)

# f输出结果： ['1234']
# f1输出结果： ['123456789']
# f2输出结果： ['123456']
# f3输出结果： ['123456']

5、英文状态下的问号？：问号表示匹配问号前一个字符0次或1次。

import re
s = '123456789chocolates123456789'
f = re.findall('9.?', s)  
print(f)

# f输出结果： ['9c', '9']

6、加号 +：加号表示匹配前一个字符1次以上。

import re
s = '123456789chocolates123456789'
f = re.findall('o.+', s)
f1 = re.findall('[0-9]+', s)
f2 = re.findall('[a-z]+', s)
print(f)
print(f1)
print(f2)

# f输出结果：  ['ocolates123456789']
# f1输出结果： ['123456789', '123456789']
# f2输出结果： ['chocolates']

7、星号 * ：星号表示匹配前一个字符0次以上。

import re
# 找出列表中含有‘chocolates'的所有元素
lis1 = ['123456789chocolates123456789', 'chocolates123','chocolates', '123456789']
lis2 = []
for s in lis1:
    lis2.extend(re.findall('[0-9]*chocolates', s))
print(lis2)

# lis2输出结果： ['123456789chocolates', 'chocolates', 'chocolates']

8、反斜杠 \ ：是转义符，用于转换特定字符含义的符号。

\n：指代换行；
\t：指代Tab制表符；
\d：指代0~9中的任一数字；
\s：指代任意一种空白（如空格、Tab、换行等）；
\S：指代任何非空白字符；
\w：指代字母、数字和下划线中的任意一种；
\.：指代句号点.本身；

import re
s = '123456789        chocolates         123456789'
f = re.sub('\s', '', s)  # 将s中所有空白替换为空
print(f)

# f输出结果：  123456789chocolates123456789