正则表达式一些基本知识

最新推荐文章于 2022-09-29 21:31:12 发布

qq_43682585

最新推荐文章于 2022-09-29 21:31:12 发布

阅读量208

点赞数 1

文章标签： python

python 正则语句及相关函数

符号表示意义
元字符说明
. 代表任意字符
[ ] 匹配内部的任一字符或子表达式
[^] 对字符集和取非-定义一个区间
\ 对下一字符取非（通常是普通变特殊，特殊变普通）
*匹配前面的字符或者子表达式0次或多次
*?惰性匹配上一个
+匹配前一个字符或子表达式一次或多次
+?惰性匹配上一个
?匹配前一个字符或子表达式0次或1次重复
{n}匹配前一个字符或子表达式
{m,n}匹配前一个字符或子表达式至少m次至多n次
{n,}匹配前一个字符或者子表达式至少n次
{n,}?前一个的惰性匹配^匹配字符串的开头
\A匹配字符串开头
$匹配字符串结束
[\b]退格字符
\c匹配一个控制字符
\d匹配任意数字
\D匹配数字以外的字符
\t匹配制表符
\w匹配任意数字字母下划线
\W不匹配数字字母下划线

一、校验数字的表达式
数字：¹*$

n位的数字：^\d{n}$

至少n位的数字：^\d{n,}$

m-n位的数字：^\d{m,n}$

零和非零开头的数字：^(0|[1-9][0-9]*)$

非零开头的最多带两位小数的数字：^([1-9][0-9]*)+(.[0-9]{1,2})?$

带1-2位小数的正数或负数：^(-)?\d+(.\d{1,2})?$

正数、负数、和小数：^(-|+)?\d+(.\d+)?$

有两位小数的正实数：²+(.[0-9]{2})?$

有1~3位小数的正实数：³+(.[0-9]{1,3})?$

非零的正整数：⁴\d*$ 或 ^([1-9][0-9]){1,3}$ 或 ^+?[1-9][0-9]$

非零的负整数：^-[1-9][]0-9″$ 或 ^-[1-9]\d$

非负整数：^\d+$ 或 ⁵\d*|0$

非正整数：^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$

非负浮点数：^\d+(.\d+)?$ 或 ⁶\d*.\d*|0.\d*[1-9]\d*|0?.0+|0$

非正浮点数：^((-\d+(.\d+)?)|(0+(.0+)?))$ 或 ^(-([1-9]\d*.\d*|0.\d*[1-9]\d*))|0?.0+|0$

正浮点数：⁷\d*.\d*|0.\d*[1-9]\d*$ 或 ^(([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9]))$

负浮点数：^-([1-9]\d*.\d*|0.\d*[1-9]\d*)$ 或 ^(-(([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9])))$

浮点数：^(-?\d+)(.\d+)?$ 或 ^-?([1-9]\d*.\d*|0.\d*[1-9]\d*|0?.0+|0)$

二、校验字符的表达式
汉字：⁸{0,}$

英文和数字：⁹+$ 或 ¹⁰{4,40}$

长度为3-20的所有字符：^.{3,20}$

由26个英文字母组成的字符串：¹¹+$

由26个大写英文字母组成的字符串：¹²+$

由26个小写英文字母组成的字符串：¹³+$

由数字和26个英文字母组成的字符串：¹⁴+$

由数字、26个英文字母或者下划线组成的字符串：^\w+$ 或 ^\w{3,20}$

中文、英文、数字包括下划线：¹⁵+$

中文、英文、数字但不包括下划线等符号：¹⁶+$ 或 ¹⁷{2,20}$

可以输入含有^%&’,;=? $KaTeX parse error: Expected 'EOF', got '\”' at position 1: \̲”̲等字符：[^%&',;=?$ \x22]+

禁止输入含有_{的字符：[^}\x22]+

三、特殊需求表达式

Email地址：^\w+([-+.]\w+)@\w+([-.]\w+).\w+([-.]\w+)*$

域名：[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?

InternetURL：[a-zA-z]+://[^\s]* 或 ^http://([\w-]+.)+[\w-]+(/[\w-./?%&=]*)?$

手机号码：^(13[09]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$

电话号码(“XXX-XXXXXXX”、”XXXX-XXXXXXXX”、”XXX-XXXXXXX”、”XXX-XXXXXXXX”、”XXXXXXX”和”XXXXXXXX)：^($ $KaTeX parse error: Expected 'EOF', got '\d' at position 1: \̲d̲{3,4}-)|\d{3.4}…$

国内电话号码(0511-4405222、021-87888822)：\d{3}-\d{8}|\d{4}-\d{7}

身份证号(15位、18位数字)：^\d{15}|\d{18}$

短身份证号码(数字、字母x结尾)：^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$

帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：¹⁸[a-zA-Z0-9_]{4,15}$

密码(以字母开头，长度在6~18之间，只能包含字母、数字和下划线)：¹⁹\w{5,17}$

强密码(必须包含大小写字母和数字的组合，不能使用特殊字符，长度在8-10之间)：^(?=.\d)(?=.[a-z])(?=.*[A-Z]).{8,10}$

日期格式：^\d{4}-\d{1,2}-\d{1,2}

一年的12个月(01～09和1～12)：^(0?[1-9]|1[0-2])$

一个月的31天(01～09和1～31)：^((0?[1-9])|((1|2)[0-9])|30|31)$

钱的输入格式：

有四种钱的表示形式我们可以接受:”10000.00″ 和 “10,000.00″, 和没有 “分” 的 “10000″ 和 “10,000″：²⁰[0-9]*$

这表示任意一个不以0开头的数字，但是，这也意味着一个字符”0″不通过，所以我们采用下面的形式：^(0|[1-9][0-9]*)$

一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号：^(0|-?[1-9][0-9]*)$

这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉，因为钱总不能是负的吧.下面我们要加的是说明可能的小数部分：²¹+(.[0-9]+)?$

必须说明的是，小数点后面至少应该有1位数，所以”10.”是不通过的，但是 “10″ 和 “10.2″ 是通过的：²²+(.[0-9]{2})?$

这样我们规定小数点后面必须有两位，如果你认为太苛刻了，可以这样：²³+(.[0-9]{1,2})?$

这样就允许用户只写一位小数。下面我们该考虑数字中的逗号了，我们可以这样：²⁴{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$

1到3个数字，后面跟着任意个逗号+3个数字，逗号成为可选，而不是必须：^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$

备注：这就是最终结果了，别忘了”+”可以用”*”替代。如果你觉得空字符串也可以接受的话(奇怪，为什么?)最后，别忘了在用函数时去掉去掉那个反斜杠，一般的错误都在这里

xml文件：^([a-zA-Z]±?)+[a-zA-Z0-9]+\.[x|X][m|M][l|L]$

中文字符的正则表达式：[\u4e00-\u9fa5]

双字节字符：[^\x00-\xff] (包括汉字在内，可以用来计算字符串的长度(一个

双字节字符长度计2，ASCII字符计1))

空白行的正则表达式：\n\s*\r (可以用来删除空白行)

HTML标记的正则表达式：<(\S*?)[^>]>.?</\1>|<.*? /> (网上流传的版本太糟糕，上面这个也仅仅能部分，对于复杂的嵌套标记依旧无能为力)

首尾空白字符的正则表达式：^\s*|\s* $KaTeX parse error: Expected group after '^' at position 3: 或(^̲\s*)|(\s*$ ) (可以用来删除行首行

尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式)

腾讯QQ号：[1-9][0-9]{4,} (腾讯QQ号从10000开始)

中国邮政编码：[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)

IP地址：\d+.\d+.\d+.\d+ (提取IP地址时有用)

IP地址：((???:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))

元字符是"[" 和 “]”。它们常用来指定一个字符类别

eg.[abc] 将匹配"a", “b”, 或 "c"中的任意一个字符；也可以用区间[a-c]来表示同一字符集，和前者效果一致。如果你只想匹配小写字母，那幺 RE 应写成 [a-z].
可以用补集来匹配不在区间范围内的字符。其做法是把"^{“作为类别的首个字符；其它地方的”}"只会简单匹配 "^"字符本身。

例如，[^5] 将匹配除 “5” 之外的任意字符。
反斜杠
\d 匹配任何十进制数；它相当于类 [0-9]。

\D 匹配任何非数字字符；它相当于类 [^0-9]。

\s 匹配任何空白字符；它相当于类 [ "t"n"r"f"v]。

\S 匹配任何非空白字符；它相当于类 [^ "t"n"r"f"v]。

\w 匹配任何字母数字字符；它相当于类 [a-zA-Z0-9_]。

\W 匹配任何非字母数字字符；它相当于类 [^a-zA-Z0-9_]。
总结：\后面为小写字母则为匹配对应功能，大写则为相反功能
```
 重复 
```

正则表达式第一件能做的事是能够匹配不定长的字符集，而这是其它能作用在字符串上的方法所不能做到的。

*这样地重复是“贪婪的”；当重复一个 RE 时，匹配引擎会试着重复尽可能多的次数。如果模式的後面部分没有被匹配，匹配引擎将退回并再次尝试更小的重复。
请注意 * 和 + 之间的不同；＊匹配零或更多次，所以根本就可以不出现，而 + 则要求至少出现一次。用同一个例子，ca+t 就可以匹配 “cat” (1 个 “a”)， “caaat” (3 个 “a”)，但不能匹配 “ct”。
问号 ? 匹配一次或零次；你可以认为它用于标识某事物是可选的。例如：home-?brew 匹配 “homebrew” 或 “home-brew”。
最复杂的重复限定符是 {m,n}，其中 m 和 n 是十进制整数。该限定符的意思是至少有 m 个重复，至多到 n 个重复。
举个例子，a/{1,3}b 将匹配 “a/b”，“a//b” 和 “a///b”。它不能匹配 “ab” 因为没有斜杠，也不能匹配 “ab” ，因为有四个。
{0,} 等同于 *，{1,} 等同于 +，而{0,1}则与 ? 相同。如果可以的话，最好使用 *，+，或?。
RegexObject 的 split() 方法在 RE 匹配的地方将字符串分片，将返回列表。它同字符串的 split() 方法相似但提供更多的定界符；split()只支持空白符和固定字符串。就象你预料的那样，也有一个模块级的 re.split() 函数。

#!python

>>> p = re.compile(r'"W+')

>>> p.split('This is a test, short and sweet, of split().')

['This', 'is', 'a', 'test', 'short', 'and', 'sweet', 'of', 'split', '']

>>> p.split('This is a test, short and sweet, of split().', 3)

['This', 'is', 'a', 'test, short and sweet, of split().']

7.如果捕获括号在 RE 中使用，那么它们的值也会当作列表的一部分返回。比较下面的调用：

#!python

>>> p = re.compile(r'"W+')

>>> p2 = re.compile(r'("W+)')

>>> p.split('This is a test.')

['This', 'is', 'a', 'test', '']

>>> p2.split('This is a test.')

['This', ' ', 'is', ' ', 'a', ' ', 'test', '.', '']

8.模块级函数 re.split() 将 RE 作为第一个参数，其他一样。

#!python

>>> re.split('["W]+', 'Words, words, words.')

['Words', 'words', 'words', '']

>>> re.split('(["W]+)', 'Words, words, words.')

['Words', ', ', 'words', ', ', 'words', '.', '']

>>> re.split('["W]+', 'Words, words, words.', 1)

['Words', 'words, words.']//分成2片

9.sub() 方法提供一个替换值，可以是字符串或一个函数，和一个要被处理的字符串。
返回的字符串是在字符串中用 RE 最左边不重复的匹配来替换。如果模式没有发现，字符将被没有改变地返回。可选参数 count 是模式匹配後替换的最大次数；count 必须是非负整数。缺省值是 0 表示替换所有的匹配。
eg.这里有个使用 sub() 方法的简单例子。它用单词 “colour” 替换颜色名

#!python

>>> p = re.compile( '(blue|white|red)')

>>> p.sub( 'colour', 'blue socks and red shoes')

'colour socks and colour shoes'

>>> p.sub( 'colour', 'blue socks and red shoes', count=1)//只能替换一次

'colour socks and red shoes'

subn() 方法作用一样，但返回的是包含新字符串和替换执行次数的两元组。

#!python

>>> p = re.compile( '(blue|white|red)')

>>> p.subn( 'colour', 'blue socks and red shoes')

('colour socks and colour shoes', 2)

>>> p.subn( 'colour', 'no colours at all')

('no colours at all', 0)

我看的一个大佬的blog做的一些总结，我忘记保存网址了，QAQ，侵删