python的正则表达中的re库一些常用的方法

在西湖雾雨中起舞

已于 2022-08-28 22:17:50 修改

阅读量733

点赞数 2

文章标签： re 正则表达式 nlp基本

于 2022-08-28 20:51:12 首次发布

本文链接：https://blog.csdn.net/blockshowtouse/article/details/126573110

版权

NLP学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

**元字符**
.	1.匹配除 "\n" 之外的单个字符。 2.匹配包括 '\n' 在内的任何字符，使用'[.\n]'
[...] 取反:[^.....]	作为字符集，筛选出字符集中写着的的字符当加上^表示除了字符集中的字符不取，其他取
\|	或者的意思，取其左边或者右边的字符

**预定义字符集**
\d	匹配任意数字，等价于 [0-9]
\D	匹配任意非数字，等价于 [^0-9]
\s	匹配任意空白字符，等价于 [\t\n\r\f]
\S	匹配任意非空字符，等价于 [^\t\n\r\f]
\w	匹配字母数字及下划线，等价于 [a-zA-Z0-9]
\W	匹配非字母数字及下划线，等价于 [^a-zA-Z0-9]
\b	匹配一个单词边界，也就是只单词和空格间的位置。如 ‘oot\b' 可以匹配 ’quootr 中的 'oot'；但不能匹配 'quoot' 中的 'oot'
\B	匹配非单词边界。'oot\B' 能匹配 "" 中的 'quootr'，但不能匹配 "quootr" 中的 'oot'

我进行组合一些复杂的正则表达式的时候是为了快捷去晚上找一些现成的模式，然后再自己进行修改，变成符合自己需要的一些正则表达式。

import re

# 正则表达式中的一些使用的符号

# 匹配出现符合条件的 0 次的或者是 多次

str1 = 'qwertyuio1ui3oo467j398k'

#  关键词: *    下面的句子就是进行匹配 零次 或者是 多次（多个字符） 符合是数字的意思
pattern = re.compile(r'\d*')
res = re.findall(pattern, str1)
print(res)
""""
显示的结果:
['', '', '', '', '', '', '', '', '', '1', '', '', '3', '', '', '467', '', '398', '', '']
"""

# 关键词: +  匹配一次或者是多次的结果

pattern = re.compile(r'\d+')
res = re.findall(pattern, str1)
print(res)
"""
显示结果:
['1', '3', '467', '398']
"""


# 关键词: ?  匹配0次或者是1次的结果

pattern = re.compile(r'\d?')
res = re.findall(pattern, str1)
print(res)
"""
['', '', '', '', '', '', '', '', '', '1', 
'', '', '3', '', '', '4', '6', '7', '', 
'3', '9', '8', '', '']
"""


# {m}精确匹配m次  (比如写进去的3，那么他就是匹配到是3个数字字符串的所有小字符串)
pattern = re.compile(r'\d{3}')
res = re.findall(pattern, str1)
print(res)
# 结果:['467', '398']


# {m, n} 最少匹配m次，最多匹配n次
# 记住在{}里面是不能随便加上空格的?
pattern = re.compile(r'\d{1,3}')
res = re.findall(pattern, str1)
print(res)
# 结果:['1', '3', '467', '398']

match()函数只检测 目标字符(串) 是不是在string的开始位置匹配，search()会扫描整个string查找匹配, match()只有在0位置匹配成功才会有返回，如果不是开始位置匹配成功,match()就会返回None

代码解释：

import re

m = re.match('lsp','hhttlsp')

if m is not None:

        print(m.group())

else:

        print('noneFine')

显示结果：

noneFine

n = re.search('lsp','hhttlsp')

if n is not None:

        print(n.group())

else:

        print(noneFine')

显示结果：

lsp

import re

n = re.search('lsp','hhttlsp')
if n:
    print(n.group())
else:
    print('noneFine')
# 显示结果：
# lsp


m = re.match('lsp','hhttlsp')
if m:
    print(m.group())
else:
    print('noneFine')
# 显示结果：
# noneFine

python的re库有两个函数/方法用于实现搜索和替换功能: sub()和subn().两者几乎一样，都是将某字符串中所有匹配正则表达式的部分进行某种形式的替换.用来替换的部分通常是一个字符串，但它也可能是一个函数，该函数返回一个用来替换的字符串.subn()和 sub()一样，但subn()还返回一个表示替换的总数，替换后的字符串和表示替换总数的数字一起作为一个拥有两个元素的元组返回.

# 可以使用sub()方法来进行查询和替换，sub方法的格式为：
# sub(replacement, string[, count=0])
# replacement是被替换成的文本
# string是需要被替换的文本
# count是一个可选参数，指最大被替换的数量

# 下面进行将所有的数字给进行替换掉
pattern = re.compile(r'\d')
res = re.sub(pattern, '替换掉的数字  ',str1)
print(res)
# 下文结果，为了方便大家看到换了多少个数字，我使用了换行将字符串给换行看出有几次换了数字
"""
qwertyuio替换掉的数字  
ui替换掉的数字  
oo替换掉的数字  
替换掉的数字  
替换掉的数字  
j替换掉的数字  
替换掉的数字  
替换掉的数字  k
"""

# 加上显示修改了多少次
res = re.subn(pattern, '替换掉的数字  ',str1)
print(res)
"""
结果：
('qwertyuio替换掉的数字 
 ui替换掉的数字  
 oo替换掉的数字 
  替换掉的数字 
   替换掉的数字  
   j替换掉的数字  
   替换掉的数字 
    替换掉的数字  
    k', 8)


"""

re.split(pattern, string, maxsplit=0, flags=0),如果匹配成功，则返回一个列表，否则返回原string列表；

第1个参数：正则表达式

第2个参数：要匹配查找的原始字符串；

第3个参数：可选参数，表示最大的拆分次数，默认为0，表示全部分割；

第4个参数：可选参数，标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等；

特别注意: 此方法并不是完全匹配。它仅仅决定在字符串开始的位置是否匹配。所以当pattern结束时若还有剩余字符，仍然成功。若想进行完全匹配，可以在表达式末尾加上边界匹配符'$'

str2 = '自然语言处理123机器学习456深度学习'
pattern = re.compile(r'\d+')
res = re.split(pattern, str2)
print(res)
# 结果:
# ['自然语言处理', '机器学习', '深度学习']

Python的re模块是第一个提出解决方案的模块：命名捕获组和命名后向引用。（？P <name> group）将组的匹配捕获到后向引用“名称”中。

str2 = '自然语言处理123机器学习456深度学习'
pattern = re.compile(r'(?P<dota>\d+)(?P<lsp>\D+)')
m = re.search(pattern, str2)
print(m.group('lsp'))
# 结果为:
# 机器学习

str2 = '自然语言处理123机器学习456深度学习'
pattern = re.compile(r'(?P<dota>\d+)(?P<lsp>\D+)')
m = re.search(pattern, str2)
print(m.group('dota'))
# 结果为:
# 123

进行号码的筛选，小尝试：

# 筛选号码
str3 = 'number  132-3209-*******'
pattern = re.compile(r'(\d\d\d-\d\d)')
res = re.search(pattern, str3)
print(res.group())
# 显示结果：
# 132-32

全部代码

# -*- coding:utf-8 -*-
# @Time : 2022-08-28 19:13
# @Author : DaFuChen
# @File : demo1.py
# @software: PyCharm


import re

# 正则表达式中的一些使用的符号

# 匹配出现符合条件的 0 次的或者是 多次

str1 = 'qwertyuio1ui3oo467j398k'

#  关键词: *    下面的句子就是进行匹配 零次 或者是 多次（多个字符） 符合是数字的意思
pattern = re.compile(r'\d*')
res = re.findall(pattern, str1)
print(res)
""""
显示的结果:
['', '', '', '', '', '', '', '', '', '1', '', '', '3', '', '', '467', '', '398', '', '']
"""

# 关键词: +  匹配一次或者是多次的结果

pattern = re.compile(r'\d+')
res = re.findall(pattern, str1)
print(res)
"""
显示结果:
['1', '3', '467', '398']
"""


# 关键词: ?  匹配0次或者是1次的结果

pattern = re.compile(r'\d?')
res = re.findall(pattern, str1)
print(res)
"""
['', '', '', '', '', '', '', '', '', '1', 
'', '', '3', '', '', '4', '6', '7', '', 
'3', '9', '8', '', '']
"""


# {m}精确匹配m次  (比如写进去的3，那么他就是匹配到是3个数字字符串的所有小字符串)
pattern = re.compile(r'\d{3}')
res = re.findall(pattern, str1)
print(res)
# 结果:['467', '398']


# {m, n} 最少匹配m次，最多匹配n次
# 记住在{}里面是不能随便加上空格的?
pattern = re.compile(r'\d{1,3}')
res = re.findall(pattern, str1)
print(res)
# 结果:['1', '3', '467', '398']

import re

n = re.search('lsp','hhttlsp')
if n:
    print(n.group())
else:
    print('noneFine')
# 显示结果：
# lsp


m = re.match('lsp','hhttlsp')
if m:
    print(m.group())
else:
    print('noneFine')
# 显示结果：
# noneFine


# 可以使用sub()方法来进行查询和替换，sub方法的格式为：
# sub(replacement, string[, count=0])
# replacement是被替换成的文本
# string是需要被替换的文本
# count是一个可选参数，指最大被替换的数量

# 下面进行将所有的数字给进行替换掉
pattern = re.compile(r'\d')
res = re.sub(pattern, '替换掉的数字  ',str1)
print(res)
# 下文结果，为了方便大家看到换了多少个数字，我使用了换行将字符串给换行看出有几次换了数字
"""
qwertyuio替换掉的数字  
ui替换掉的数字  
oo替换掉的数字  
替换掉的数字  
替换掉的数字  
j替换掉的数字  
替换掉的数字  
替换掉的数字  k
"""

# 加上显示修改了多少次
res = re.subn(pattern, '替换掉的数字  ',str1)
print(res)
"""
结果：
('qwertyuio替换掉的数字 
 ui替换掉的数字  
 oo替换掉的数字 
  替换掉的数字 
   替换掉的数字  
   j替换掉的数字  
   替换掉的数字 
    替换掉的数字  
    k', 8)


"""

str2 = '自然语言处理123机器学习456深度学习'
pattern = re.compile(r'\d+')
res = re.split(pattern, str2)
print(res)
# 结果:
# ['自然语言处理', '机器学习', '深度学习']


str2 = '自然语言处理123机器学习456深度学习'
pattern = re.compile(r'(?P<dota>\d+)(?P<lsp>\D+)')
m = re.search(pattern, str2)
print(m.group('dota'))
# 结果为:
# 123



# 筛选号码
str3 = 'number  132-3209-*******'
pattern = re.compile(r'(\d\d\d-\d\d)')
res = re.search(pattern, str3)
print(res.group())
# 显示结果：
# 132-32