点击标题下「 Python全栈之巅」可快速关注
动机
文本处理已经成为计算机常见工作之一
对文本内容的搜索,定位,提取是逻辑比较复杂的工作
为了快速方便的解决上述问题,产生了正则表达式技术
简介
定义
即文本的高级匹配模式,提供搜索,替换等功能。其本质是由一系列字符和特殊符号构成的字串,这个字串即正则表达式。
原理
通过普通字符和有特定含义的字符,来组成字符串,用以描述一定的字符串规则,比如:重复,位置等,来表达某类特定的字符串,进而匹配。
目标
熟练掌握正则表达式元字符
能够读懂常用正则表达式,编辑简单的正则规则
能够熟练使用re模块操作正则表达式
元字符使用
普通字符
匹配规则:每个普通字符匹配其对应的字符
e.g.
In : re.findall('ab',"abcdefabcd")
Out: ['ab', 'ab']
注意事项:正则表达式在python中也可以匹配中文
或关系
元字符: |
匹配规则: 匹配 | 两侧任意的正则表达式即可
e.g.
In : re.findall('com|cn',"www.baidu.com/www.tmooc.cn")
Out: ['com', 'cn']
匹配单个字符
元字符:.
匹配规则:匹配除换行外的任意一个字符
e.g.
In : re.findall('张.丰',"张三丰,张四丰,张五丰")
Out: ['张三丰', '张四丰', '张五丰']
匹配字符集
元字符:[字符集]
匹配规则: 匹配字符集中的任意一个字符
表达形式:
[abc#!好] 表示 [] 中的任意一个字符
[0-9],[a-z],[A-Z] 表示区间内的任意一个字符
[_#?0-9a-z] 混合书写,一般区间表达写在后面
e.g.
In : re.findall('[aeiou]',"How are you!")
Out: ['o', 'a', 'e', 'o', 'u']
匹配字符集反集
元字符:
[^
字符集]匹配规则:匹配除了字符集以外的任意一个字符
e.g.
In : re.findall('[^0-9]',"Use 007 port")
Out: ['U', 's', 'e', ' ', ' ', 'p', 'o', 'r', 't']
匹配字符串开始位置
元字符: ^
匹配规则:匹配目标字符串的开头位置<