正则表达式(Python)

最新推荐文章于 2022-03-30 19:58:16 发布

刘彦祖lyz

最新推荐文章于 2022-03-30 19:58:16 发布

阅读量227

点赞数 1

分类专栏： Python 文章标签： python 正则表达式

本文链接：https://blog.csdn.net/weixin_43274097/article/details/103823066

版权

Python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

正则表达式，又称规则表达式。（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

正则的基本知识：

预定义：
\A: 表示从字符串的开始处匹配
\Z: 表示从字符串的结束处匹配，如果存在换行，只匹配到换行前的结束字符串
\b: 匹配一个单词边界，也就是指单词和空格间的位置。例如，‘py\b’可以匹配’python’中的’py’,但不能匹配’openpyx1’中的’py’。
\B: 匹配非单词边界。‘py\b’可以匹配’openpyx1’中的’py’，但不能匹配’python’中的’py’
\d: 匹配任意数字，等价于 [0-9]。 digit
\D: 匹配任意非数字字符，等价于[^\d]。 not digit
\s: 匹配任意空白字符，等价于[\t\n\r\f]。 space
\S: 匹配任意非空白字符，等价于[^\s]。
\w: 匹配任意字母数字下划线，等价于 [a-zA-Z0-9]。
\W: 匹配任意非数字字母下划线，等价于 [^\w]
\: 匹配原义的反斜杠\。

特殊符号：
[] 表示范围
| 表示或者
() 表示一组
. 用于匹配除了换行符(\n)之外的所有字符
^ 用于匹配字符串的开始，即行首
$ 用于匹配字符串的末尾(末尾如果有换行符\n，就匹配\n前面的那个字符),即行尾

定义正则验证次数：
*(星号) 用于将前面的模式匹配0次或多次(贪婪模式，即尽可能多的匹配) >=0
+(加号) 用于将前面的模式匹配1次或多次（贪婪模式） >=1
? 用于将前面的模式匹配0次或1次 (贪婪模式) 0,1
{m} 用于验证前面的模式匹配m次
{m,} 用于验证前面的模式匹配m次或者多次
{m,n} 用于验证前面的模式匹配大于等于m次并且小于等于n次

只要跟数量相关，在python里都是贪婪的。在"*","?","+","{m,n}"后面加上? 就可以使贪婪模式变成非贪婪。

使用示例(记得先导入re库)：

校验手机号：

import re
phone = input("input the phone number:")
result = re.match('^1[3456789]\d{9}$', phone)  # ^1(3|4|5|6|7|8|9)\d{9}$，表达式写法不唯一
  if result:
        print("恭喜，验证通过。")
  else:
        print("手机号不合法！")

稍微带一点条件的，比如不能是以4、7结尾的手机号：

phone = '18476529115'
print("不是以4、7结尾的手机号:",phone)
# result = re.match(r'^1\d{9}[0-35-689]$', phone)
result = re.match(r'^1\d{9}(1|2|3|5|6|8|9)$', phone)
print("校验结果：",result)

校验指定的(qq,163,126)邮箱格式：

email = input("input the email:")
# result = re.match('^\w+@\w+\.com$', email)
result = re.match(r'^\w{5,18}@(163|qq|126)\.(com)$', email)  # qq 163 126 邮箱
if result:
    print("验证通过。")
else:
    print("格式不合法")

查找所有.py的文件：

files = 'a.py b.txt c.html d.py"'
result = re.findall(r'\w*\.py\b', files)
print(result)

校验ipv4地址：

d = re.compile(r'^([1-9]\d|1\d{0,2}|2[0-5]{2})\.((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){2}(2[0-4]\d|25[0-5]|[01]?\d\d?)$')
    ip = input("请输入一个ip地址：")
    s = d.search(ip)
    if s:
        print(s.group())
    else:
        print('IP地址不合法')

使用分组分别获取区号、电话号码

phone = '010-123456789'
# 在正则表达式中，一个小括号表示一组
result = re.match(r'(^\d{3}|\d{4})-(\d){9}$', phone)  
# 分组提取 （# 小括号有几个就有几个group）
print(result.group(1))  
print(result.group(2))

分组引用：

msg2 = '<h1>hello</h1>'
# 数字(索引)方式
result = re.match(r'<（[0-9a-zA-Z]+）>(.+)</\1>$', msg2)
# </\1>：\1表示引用第一组(小括号)匹配到的内容
print(result)
# print(result.group(1))

分组命名(?P<名字>正则表达式)、引用：

# 分组命名  (?P<名字>正则)
msg3 = '<html><h1>hhh</h1></html>'
result = re.match(r'<(?P<name1>\w+)><(?P<name2>\w+)>(.+)</(?P=name2)></(?P=name1)>', msg3)  
# ?P<name1> 表示给当前（括号内）组: \w+ 命名为name1
# </(?P=name1)> 表示引用 名为name1的组的匹配结果
print(result) 
 #运行结果： <_sre.SRE_Match object; span=(0, 25), match='<html><h1>hhh</h1></html>'>

re模块的其它函数使用：

'''
    sub(正则表达式，替换的内容(可以是函数)，字符串): 替换
    split(正则表达式,字符串) 分割，然后将分割的内容保存到列表中
'''
newstr = re.sub(r'\d+', '100', 'java:98 python 99')
print(newstr)  # java:100 python 100

# 计算功能函数   +10
def add(temp):
    num = temp.group()
    num1 = int(num) + 10
    return str(num1)


''' 参数为函数add() '''
newstr = re.sub(r'\d+', add, '本次考试得分：90')
print(newstr)  # 本次考试得分：100

# 分割
result = re.split(r'[,:]', 'java:99,python:98')
print(result)  # ['java', '99', 'python', '98']

贪婪、非贪婪：
只要跟数量相关，在python里都是默认贪婪的。
在"*","?","+","{m,n}"后面加上? 就可以使贪婪模式变成非贪婪。
测试一下：

contents = 'abc123'
result = re.match(r'abc(\d+)', contents)
print(result)  # <_sre.SRE_Match object; span=(0, 6), match='abc123'>
result = re.match(r'abc(\d+?)', contents)
print(result)  # <_sre.SRE_Match object; span=(0, 4), match='abc1'>

刘彦祖lyz

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
正则表达式(Python)

正则表达式，又称规则表达式。（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。先写一下我的总结：预定义：\A: 表示从字符串的开始处匹...
复制链接

扫一扫

专栏目录