Python正则表达式概述

一、正则表达式为高级的文本模式匹配、抽取、与/或文本形式的搜索和替换功能提供了基础。简单地说,正则表达式regex是一些字符和特殊符号组成的字符串,它们描述了模式的重复或者表述多个字符,于是正则表达式能按照某种模式匹配一系列有相似特征的字符串。

二、特殊符号和字符

常见表达式符号和特殊字符
literal匹配文本字符串的字面值literalfoo
re1|re2匹配正则表达式re1或者re2foo|bar
.匹配任何字符(除了\n之外)b.b
^匹配字符串起始部分^Dear
$匹配字符串终止部分/bin/*sh$
*匹配0次或者多次前面出现的正则表达式[A-Za-z0-9]*
+匹配1次或者多次前面出现的正则表达式[a-z]+\.com
?匹配0次或者1次前面出现的正则表达式goo?
{N}匹配N次前面出现的正则表达式[0-9]{3}
{M,N}匹配M~N次前面出现的正则表达式[0-9]{5,9}
[...]匹配来自字符集的任意单一字符[aeiou]
[..x-y..]匹配x~y范围中的任意单一字符[0-9],[A-Za-z]
[^...]不匹配此字符集中出现的任何一个字符,包括某一范围的字符(如果在此字符集中出现)[^aeiou],[^A-Za-z0-9]
(*|+|?|{})?用于匹配上面频繁出现/重复出现符号的非贪婪版本(*, +, ?, {}).*?[a-z]
(...)匹配封闭的正则表达式,然后另存为子组([0-9]{3})?,f(oo|u)bar
特殊字符
\d匹配任何十进制数字,与[0-9]一致(\D和\d相反,不匹配任何非数值型的数字)data\d+.txt
\w匹配任何字母数字字符,与[A-Za-z0-9_]相同(\W与之相反)[A-Za-z_]\w+
\b匹配任何单词边界(\B与之相反)\bThe\b
\N匹配已保存的子组Nprice:\16
\s匹配任何空格字符,与[\n\t\r\v\f]相同(\S与之相反)of\sthe
\c逐字匹配任何特殊字符,即仅按照字面意义匹配,不匹配特殊含义\.,\\, \*
\A(\Z)匹配字符串的起始(结束)\ADear

三、正则表达式示例

1、以字符串起始或者结尾或者单词边界匹配(匹配任何以美元符号结尾的字符串,可用.*\$$)

^From任何以From作为起始的字符串
/bin/tcsh$任何以/bin/tcsh作为结尾的字符串
^Subject:hi$

任何由单独的字符串Subject:hi构成的字符串

the任何包含the的字符串
\bthe任何以the开始的字符串
\bthe\b仅仅匹配单词the
\Bthe任何包含但并不以the作为起始的字符串

2、创建字符集

b[aeiu]tbat,bet,bit,but
[cr][23][dp][o2]一个包含四个字符的字符串,第一个字符是c或者r,然后2或者3

3、限定范围和否定

z.[0-9]字母‘z’后面跟着任何一个字符,然后跟着一个数字
[r-u][env-y][us]字母r、s、t或者u后面跟着envwx或者y,然后跟着u或者s
[^aeiou]一个非元音字符
[^\t\n]不匹配制表符或者\n
[“-a]在一个ASCII系统中,所有字符都位于“”和“a”之间,即34-97

4、使用闭包操作符实现存在性和频数匹配

[dn]ot?

字母d或者n,后面跟着一个o,然后最多一个t,如do,no,dot,not

0?[1-9]任何数值数字,它可能前置一个0,例如匹配一系列数(表示从0-9月的数值),不管是一个还是两个数字
[0-9]{15,16}匹配15或者16个数字,例如信用卡号码
</?[^>+>匹配全部有效(和无效的)HTML标签
[KQRBNP][a-h][1-8]-[a-h][1-8]在“长代数”标记法中,表示国际象棋合法的棋盘移动,即在KQRBNP等字母后面加上a1-h8之间的棋盘坐标,前面的坐标表示从哪里走,后面的坐标表示走到哪个位置上

5、表示字符集的特殊字符

\w+-\d+一个由字母数字组成的字符串和一串由一个连字符分割的数字
[A-Za-z]\w*第一个字符是字母:其余字符可以是字母或者数字
\d{3}-\d{3}-\d{4}美国电话号码的格式,前面是区号前缀,例如800-555-1212
\w+@\w+\.com以XXX@YYY.com格式表示的简单电子邮件地址

6、使用圆括号指定分组

\d+(\.\d*)?表示简单浮点数的字符串,即任何十进制数字,后面可以接一个小数点和零个或者多个十进制数字,如0.004, 2, 75.
(Mr?s?\.)?[A-Z][a-z]*[A-Za-z-}+姓名和姓氏,以及对名字的限制(如果有,首字母要大写后续字母要小写),全名前可以有可选的Mr. Mrs. Ms. M. 作为称谓,以及灵活可选的姓氏,可以有多个单词,横线,以及大写字母

7、扩展表达式

(?:\w+\.)*以句点作为结尾的字符串,例如google,twitter,facebook,但是这些匹配不会保存下来供后续的使用和数据检索
(?#comment)此处并不做匹配,只是作为注释
(?=.com)如果一个字符串后面跟着.com才做匹配操作,并不使用任何目标字符串
(?!.net)如果一个字符串后面不是跟着.net才做匹配操作
(?<=800-)如果字符串之前为800-才做匹配,假定为电话号码,同样,并不使用任何输入字符串
(?<!192\.168\.)如果一个字符串之前不是192.168.才做匹配,假定用于过滤掉一组C类IP地址
(?(1)y|x)如果一个匹配组1(\1)存在,就与y匹配,否则,就与x匹配。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值