Python3正则表达式
前言
hello!这是我的第一篇博客,当然是是因为作业啊!在通过查阅文档,阅读别人所写的博客,和最重要的当然是自己上手操作的过程中,我已经初步知道正则表达式的基本语法以及如何使用了,就来写一篇学习笔记总结一下哦。作为初学者,错误难免有哦,欢迎指出来鸭。
简介
1.引入
老师在引入正则表达式的时候,举出了这样一个例子:我们用world中写好了一篇论文,可是发现某个字全篇都是错误的,这时候是要找到一个改一个吗?肯定不是!查找替换功能轻松解决。
2.正则表达式是什么
这种查找替换的功能就类似于正则表达式。
正则表达式,实际上是一个字符串,通过给定一个正则表达式和另一个字符串,我们可以达到如下的目的:①. 给定的字符串是否可以和正则表达式符合。②. 可以通过正则表达式,从字符串中获取我们想要的特定部分。
正则表达式是字符串处理的有力工具,但是并不是Python独有的,其他语言也有。
下面我们就开始从基本语法开始学习正则表达式
正则表达式语法
1.基础知识-元字符
- 元字符
有一些字符比较特殊,它们和自身并不匹配,而是表明应和一些特殊的东西匹配,或者会影响重复次数。这些特殊的字符我们称之为元字符。 - 原始字符串
在字符串前面加上字母r或R表示原始字符串,所有的字符都是原始的本义而不会进行任何转义。这个功能的实现就很像正则表达式了
2.常用元字符
2.1匹配不定长的字符集
① “.”:
表示除换行符以外的任意字符。
与“.”类似(但不相同)的一个符号是“\S”,表示不是空白符的任意字符。
代码如下(示例):
import re
s='hi,i am a student.my name is Tom'
print(re.findall(r'.',s))
运行结果
['h', 'i', ',', 'i', ' ', 'a', 'm', ' ', 'a', ' ', 's', 't', 'u', 'd', 'e', 'n', 't', '.', 'm', 'y', ' ', 'n', 'a', 'm', 'e', ' ', 'i', 's', ' ', 'T', 'o', 'm']
② " / "
反斜杠后面可以加不同的字符表示不同的特殊意义
“^”表示补集,匹配不在区间范围内的字符,
例如:[^3]表示除3以外的字符。
字符 | 意义 |
---|---|
\b | 匹配单词头或单词尾 |
\B | 与\b相反,匹配非单词头或单词尾 |
\d | 匹配任何十进制数;相当于[0-9] |
\D | \d相反,匹配任何非数字字符,相当于[^0-9] |
\s | 匹配任何空白字符,相当于[\t\n\r\f\v] |
\S | 与\s相反,匹配任何非空白字符,相当于[^\t\n\r\f\v] |
\w | 匹配任何字母、数字或下画线字符,相当于[a-zA-Z0-9_] |
\W | 匹配任何非字母、数字和下画线字符,相当于[^a-zA-Z0-9_] |
也可以用于取消所有的元字符:
这些特殊字符都可以包含在[]中.
③ “^”:
匹配行首,匹配以^后面的字符开头的字符串
代码如下(示例):
import re
s='helloTom BabyhelloMary helo'
print(re.findall(r'hello',s))
运行结果
['hello', 'hello']
④ “$”:
匹配行尾,匹配以它之前的字符结束的字符串
代码如下(示例):
s='helloTom BabyhelloMary helo'
print(re.findall(r'lo',s))
运行结果
['lo', 'lo', 'lo']
⑤ “[ ]”:
常用来指定一个字符集,例如:[abc]、[a-z]、[0-9];
元字符在方括号中不起作用,例如:[akm$]和[m.]中元字符都不起作用.
代码如下(示例):
s='abc acd abc'
print(re.findall(r'a[bc]\D*',s))
print(re.findall(r'a[^b]',s))
运行结果
['abc acd abc']
['ac']
2.2指定重复次数的字符
① “*”:
匹配位于*之前的字符或子模式的0次或多次出现
代码如下(示例):
s='aab abb abbbb b a'
print(re.findall(r'ab*',s))
运行结果
['a', 'ab', 'abb', 'abbbb', 'a']
② “+”:
匹配位于+之前的字符或子模式的1次或多次出现
代码如下(示例):
s='aab abb abbbb b a'
print(re.findall(r'ab+',s))
运行结果
['ab', 'abb', 'abbbb']
③ “?”:
匹配位于?之前的0个或1个字符
当“?”紧随其他限定符(*、+、{n}、{n,}、{n,m})之后时,匹配模式是“非贪心的”。
“非贪心的”模式匹配搜索到尽可能短的字符串,而默认的“贪心的”模式匹配搜索到的、尽可能长的字符串。
代码如下(示例):
s='a ab abbbbb abbbbbxa'
print(re.findall(r'ab+',s))
print(re.findall(r'ab+?',s))
运行结果
['ab', 'abbbbb', 'abbbbb']
['ab', 'ab', 'ab']
④ “{m,n}”
表示至少有m个重复,至多有n个重复。
m,n均为十进制数。
忽略m表示0个重复,忽略n表示无穷多个重复。
代码如下(示例):
s1='12345 123567'
s2='a b baaa baaaa'
print(re.findall(r'123\d{2}',s1))
print(re.findall(r'a{1,3}',s2))
运行结果
['12345', '12356']
['a', 'aaa', 'aaa', 'a']
re模块中常量
- re.IGNORECASE 简写re.l
作用:大小写忽略匹配 - re.ASCII 简写 re.A
作用:让\w,\b,\d…只匹配ASCII,而不是Unicode - re.DOTALL 简写 re.S
作用:匹配所有,包括\n - re.MULTILINE 简写 re.M
作用:多行模式,当某字符串中有换行符\n,默认模式下是不 支持换行符特性的,比如:行开头 和 行结尾,而多行模式下是支持匹配行开头的 - re.VERBOSE 简写 re.X
作用:在正则表达式中加注解
简单给出一个例子
更多详细可以参考python正则表达式中re模块常量用法简介
re模块中常用函数
1.字符串匹配
re模块提供了正则表达式操作所需要的功能
1.1match( )
re.match(pattern,string[,flags])
从首字母开始开始匹配,string如果包含pattern子串,则匹配成功,返回Match对象;失败则返回None
代码如下(示例):
import re
print(re.match(r'How','How are you'))
运行结果
<re.Match object; span=(0, 3), match='How'>
1.2search( )
re.search(pattern,string[,flags])
将字符串的所有子串尝试与正则表达式匹配,
如果所有的字串都没有匹配成功,返回none,否则返回Match对象。
注意:多个子串,只返回第一个
代码如下(示例):
s1='ahello'
s2='bahello world hello'
print(re.match(s1,s2))
print(re.search(s1,s2))
运行结果
None
<re.Match object; span=(1, 7), match='ahello'>
1.3 findall( )
re.findall(pattern,string[,flags])
列表的形式返回所有能匹配的子串,如果没有找到匹配的,则返回空列表。
代码如下(示例):
s3=r'abc'
print(re.findall(s3,'aabaab'))
print(re.findall(s3,'aabcaabc'))
运行结果
[]
['abc', 'abc']
1.4 finditer( )
re.finditer(pattern, string[, flags])
返回string中所有与pattern相匹配的全部字串,返回形式为Match对象的迭代器。
1.5小结
1.我们会发现对于findall()函数返回的是一个列表,
而match()和search()函数,直接打印输出的结果很多。因此匹配对象的方法只适用于match,search,findier,而不适合findall。
2.例如<re.Match object; span=(0, 5), match=‘abcde’>它就是函数返回的match对象,但是我们想要得到的只是最后一个结果match=‘abcde’,接下来我们会学习匹配对象的方法来解决这个问题
1.6目标串返回
在正则表达式中使用()用来分组。group()用来提出分组截获的字符串。
group() 同group(0)就是匹配正则表达式整体结果;
group(1) 返回第1个括号匹配部分;
group(2) 列出第2个括号匹配部分;
group(3) 列出第3个括号匹配部分;
…
代码如下(示例):
a="123abc456"
print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group())
print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(0))
print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(1))
print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(2))
print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(3))
运行结果
123abc456
123abc456
123
abc
456
2.字符串替换——re.sub
re.sub(pattern, repl, string[, count])
使用repl替换string中每一个匹配的子串后返回替换后的字符串。
当repl是一个字符串时,可以使用\id或\g、\g引用分组,但不能使用编号0;当repl是一个方法时,这个方法应当只接受一个参数(Match对象),并返回一个字符串用于替换(返回的字符串中不能再引用分组)。
count用于指定最多替换次数,默认全部替换。
代码如下(示例):
s1="she is a girl. she likes apples"
result = re.sub('she','he',s1,1)
print(result)
运行结果
he is a girl. she likes apples
3.字符串拆分——re.split()
re.split(pattern,string,maxsplit)
maxsplit指定最大分割次数,不指定将全部分割。返回根据匹配到的子串将字符串分割成列表
代码如下(示例):
result = re.split('\d+','a111b222c33')
print (result)
db = '2020-10-121 23:23:23'
result = re.split("\W+",db)
print (result)
运行结果
['a', 'b', 'c', '']
['2020', '10', '121', '23', '23', '23']
正则表达式对象
1.compile()函数
compile(pattern,[,flags]
compile()函数 编译正则表达式(以字符串书写的)pattern,转换为模式对象然后返回一个正则表达式对象。不同于re.method()这种模式,使用预编译的代码对象比直接使用字符串要快,因为解释器在执行字符串形式的代码前都必须把字符串编译成代码对象。
用正则表达式对象获取匹配子串
2.字符串匹配
Pattern.match(string[, pos[, endpos]])
Pattern.search(string[, pos[, endpos]])
Pattern.findall(string[, pos[, endpos]])
可选参数 endpos 限定了字符串搜索的结束;它假定字符串长度到 endpos , 所以只有从 pos 到
endpos - 1 的字符会被匹配。如果 endpos 小于 pos,就不会有匹配产生;
如果 string 的 开始位置 能够找到这个正则样式的匹配,就返回一个相应的 匹配对象。如果不匹配,就返回 None ;
代码如下(示例):
s1='abcde abcdef bcde'
pattern = re.compile(r'\w*bcd\w*')
result = pattern.match(s1)
print(result.group())
运行结果
abcde
2.字符串替换
Pattern.sub(repl, string, count=0)
等价于 sub() 函数,使用了编译后的样式
代码如下(示例):
s1='abcde abcdef bcde'
pattern = re.compile(r'\s+')
result = pattern.sub('-',s1,3)
print(result)
运行结果
abcde-abcdef-bcde
3.字符串分割
Pattern.split(string, maxsplit=0)
代码如下(示例):
s1='a1b2c3d4ee5'
pattern = re.compile(r'\d+')
result1 = pattern.split(s1)
result2 = pattern.split(s1,3)
#只分割三次,后面不分割
print(result1)
print(result2)
运行结果
['a', 'b', 'c', 'd', 'ee', '']
['a', 'b', 'c', 'd4ee5']
4.小结
在re模块的函数中的函数 compile函数 ,这个函数可以预编译返回一个正则对象,此正则对象拥有与re模块相同的函数。
那到底该用re模块 还是 正则对象Pattern ?
官方文档推荐:在多次使用某个正则表达式时推荐使用正则对象Pattern 以增加复用性,因为通过 re.compile(pattern) 编译后的模块级函数会被缓存。
总结
路漫漫其修远兮,老师也说python正则表达式文化博大精深,我们也是需要掌握好常见的用法的。
以上即为我对python正则表达式的简要了解。
我在学习以及练习的过程中,真的意识到实践才能出真知!!!有疑惑就去实操!!!收获一定会有的!!!