re模块及常用方法

最新推荐文章于 2024-09-13 19:50:02 发布

N10N11

最新推荐文章于 2024-09-13 19:50:02 发布

阅读量65

点赞数

分类专栏： python基础入门文章标签： python 前端 javascript

本文链接：https://blog.csdn.net/flclyz/article/details/132942800

版权

python基础入门专栏收录该内容

24 篇文章 0 订阅

订阅专栏

首先我们用python来编写一段代码来判断手机号输入是否合法

while True:
    info_phone=input('输入手机号：')
    if info_phone.isdigit() and len(info_phone)==11 and info_phone.startswith('13'):
        print('对')
    else:
        print('错')

当然还有另一种写法

import re
phone_number = input('please input your phone number ： ')
if re.match('^(13|14|15)[0-9]{9}$',phone_number)
    print('是合法的手机号码')
else:
    print('不是合法的手机号码')

如果文件数据很多的情况下，正则表达式更适合一些。

正则表达式

在线测试工具 正则表达式在线测试 - 站长工具

字符组

正则	待匹配字符	匹配结果	说明
[0123456789]	8	True	在一个字符组里枚举合法的所有字符，字符组里的任意一个字符和"待匹配字符"相同都视为可以匹配
[0123456789]	a	False	由于字符组中没有"a"字符，所以不能匹配
[0-9]	7	True	也可以用-表示范围,[0-9]就和[0123456789]是一个意思
[a-z]	s	True	同样的如果要匹配所有的小写字母，直接用[a-z]就可以表示
[A-Z]	B	True	[A-Z]就表示所有的大写字母
[0-9a-fA-F]	e	True	可以匹配数字，大小写形式的a～f，用来验证十六进制字符

字符

元字符	匹配内容
.	匹配除换行符以外的任意字符
\w	匹配字母或数字或下划线
\s	匹配任意的空白符
\d	匹配数字
\n	匹配一个换行符
\t	匹配一个制表符
\b	匹配一个单词的结尾
^	匹配字符串的开始
$	匹配字符串的结尾
\W	匹配非字母或数字或下划线
\D	匹配非数字
\S	匹配非空白符
a\|b	匹配字符a或字符b
()	匹配括号内的表达式，也表示一个组
[...]	匹配字符组中的字符
[^...]	匹配除了字符组中字符的所有字符

量词

量词	用法说明
*	重复零次或更多次
+	重复一次或更多次
?	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

量词只能影响前面一个字符（ab+ 影响b）

量词不能单独使用，需要配合表达式使用

贪婪匹配与非贪婪匹配

贪婪匹配

待匹配的文本
<script>hello</script>

正则
<.*>
<script>
<script>hello</script>

贪婪匹配就是把匹配的内容尽量多的匹配

<.*?>的用法

取消贪婪匹配

. 是任意字符
* 是取 0 至无限长度
? 是非贪婪模式。
合在一起就是取尽量少的任意字符，一般不会这么单独写，他大多用在：
.*?x

就是取前面任意长度的字符，直到一个x出现

转义符

在正则表达式中，有很多有特殊意义的是元字符，比如\n和\s等，如果要在正则中匹配正常的"\n"而不是"换行符"就需要对"\"进行转义，变成'\\'。

在python中，无论是正则表达式，还是待匹配的内容，都是以字符串的形式出现的，在字符串中\也有特殊的含义，本身还需要转义。所以如果匹配一次"\n",字符串中要写成'\\n'，那么正则里就要写成"\\\\n",这样就太麻烦了。这个时候我们就用到了r'\n'这个概念，此时的正则是r'\\n'就可以了。

re模块下的常用方法

import re

ret = re.findall('a', 'eva egon yuan')  # 返回所有满足匹配条件的结果,放在列表里
print(ret) #结果 : ['a', 'a']

ret = re.search('a', 'eva egon yuan').group()
print(ret) #结果 : 'a'
# 函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以
# 通过调用group()方法得到匹配的字符串,如果字符串没有匹配，则返回None。

ret = re.match('a', 'abc').group()  # 同search,不过尽在字符串开始处进行匹配
print(ret)
#结果 : 'a'

ret = re.split('[ab]', 'abcd')  # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割
print(ret)  # ['', '', 'cd']

ret = re.sub('\d', 'H', 'eva3egon4yuan4', 1)#将数字替换成'H'，参数1表示只替换1个
print(ret) #evaHegon4yuan4

ret = re.subn('\d', 'H', 'eva3egon4yuan4')#将数字替换成'H'，返回元组(替换的结果,替换了多少次)
print(ret)

obj = re.compile('\d{3}')  #将正则表达式编译成为一个 正则表达式对象，规则要匹配的是3个数字
ret = obj.search('abc123eeee') #正则表达式对象调用search，参数为待匹配的字符串
print(ret.group())  #结果 ： 123

import re
ret = re.finditer('\d', 'ds3sy4784a')   #finditer返回一个存放匹配结果的迭代器
print(ret)  # <callable_iterator object at 0x10195f940>
print(next(ret).group())  #查看第一个结果
print(next(ret).group())  #查看第二个结果
print([i.group() for i in ret])  #查看剩余的左右结果

分组

无名分组：使用小括号括起来的正则表达式就是无名分组

    res = re.search('^[1-9](\d{14})(\d{2}[0-9x])?$','110105199812067023')
    print(res)
    print(res.group())  # 110105199812067023
    print(res.group(1))  # 10105199812067
    print(res.group(2))  # 023

#如果是findall，分组优先展示,无名分组
    res = re.findall("^[1-9](\d{14})\d{2}[0-9x]?$",'110105199812067023')
    print(res)  # ['023']

有名分组：使用小括号括起来的正则表达式然后给起个名字就是有名的

    res = re.search('^[1-9](?P<xxx>\d{14})(?P<ooo>\d{2}[0-9x])?$','110105199812067023')
    print(res)
    print(res.group(1))
    print(res.group(2))
    print(res.group('xxx'))
    print(res.group('ooo'))