python-正则表达式

在python中,使用正则表达式,需要先导入re模块。

使用 re.__all__ 查看模块的全部属性和函数:

import re
print(re.__all__)

# 打印结果
'''
['match', 'fullmatch', 'search', 'sub', 
    'subn', 'split', 'findall', 'finditer', 
    'compile', 'purge', 'template', 'escape', 
    'error', 'Pattern', 'Match',
     'A', 'I', 'L', 'M', 'S', 'X', 'U', 'ASCII', 
    'IGNORECASE', 'LOCALE', 'MULTILINE', 'DOTALL', 
    'VERBOSE', 'UNICODE']
'''

 

常用方法:

1、re.match( patter, string, flags=0 )

必须从字符串起始位开始匹配,匹配失败返回None,成功返回_sre.SRE_Match对象,该对象包含两个方法:

    (1)  span( ) :该方法返回匹配位 从起始 到 终止位的索引组成的元组。(符合左闭右开原则)

    (2)  group( ) :该方法返回所匹配的子串

注意:如果匹配到了,group(0) 是匹配的结果,而group(1) 是小分组匹配的结果,也就是匹配到的是括号里边的部分。。。

import re
a = re.match('www','www.baidu.com')
print(a.span()) # (0, 3)
print(a.group()) #  'www'

 

2、re.search( patter, string, flags=0 )

扫描整个字符串,匹配失败返回None,成功也返回第一次匹配子串的_sre.SRE_Match对象,该对象包含两个方法:

    (1)  span( ) :该方法返回匹配位 从起始 到 终止位的索引组成的元组。(符合左闭右开原则)

    (2)  group( ) :该方法返回所匹配的子串。

import re
a = re.search('www','bwwwn.www')
print(a.span()) # (1, 4)
print(a.group()) #  'www'

match和search区别:

match必须从字符串开始出就匹配;search则可以搜索整个字符串。。。

 

3、re.findall( patter, string, flags=0 )

扫描整个字符串,返回字符串中所有匹配到子串组成的列表

import re
a = re.findall('www','bwwwn.www')
print(a) # ['www', 'www']

上边代码,意思是:从 ' bwwwn.www ' 搜索www,返回所有匹配到的字串组成的列表。

4、re.finditer( patter, string, flags=0 )

扫描整个字符串,返回字符串中所有匹配到子串组成的迭代器,迭代器元素是_sre.SRE_Match对象,

findall和finditer区别在于:

findall返回一个列表,finditer返回的是迭代器。

 

5、re.fullmatch( patter, string, flags=0 )

必须整个字符串全部匹配字串才行,匹配失败返回None,成功也返回_sre.SRE_Match对象,

该对象包含两个方法:

    (1)  span( ) :该方法返回匹配位 从起始 到 终止位的索引组成的元组。(符合左闭右开原则)

    (2)  group( ) :该方法返回所匹配的子串。

import re
a = re.fullmatch('www','www')
print(a.span()) # (0,3)
print(a.group()) # 'www'

 

6、re.sub( patter,repl, string,count = 0, flags=0 ) 匹配成功替换

该函数用于将string字符串中所有匹配的patter(子串)的内容替换成repl,repl可以是字符串,也可以是函数,count参数控制最多替换多少次;如果count为0,则全部替换。

import re
a = re.sub('xxx','鸡西','鸡小西就读于xxx小学',count=0)
print(a) # '鸡小西就读于鸡西小学'
import re
a = re.sub('-','/','2019-02-22',count=0)
print(a) # '2019/02/22'

要替换的是函数情况:(经常会用到)

s = 'javac#'
def fn(param):
    print(param) # <re.Match object; span=(4, 6), match='c#'>
    result = param.group()
    return ','+ result
r = re.sub('c#',fn,s)
print(r) # java,c#

上边代码,替换的是一个函数,匹配到的字符,将会传给param参数,函数参数param它是一个_sre.SRE_Match对象,所以使用group方法,可以获取到匹配到的字符,然后动态操作这个字符即可。。。

在看一个小demo:需求是 把字符串中大于等于 5 的数字 替换成1,小于 5 的 替换成 0

s = 'a82b3b6c2d5'
def fn(param):
    res = param.group()
    if int(res) >= 5:
        return ',1'
    else:
        return ',0'
r = re.sub('\d',fn,s)
print(r) # a,1,0b,0b,1c,0d,1

 

7、string.replace 也是将字符串替换成xxx

s = 'javac#'
r = s.replace('c#',',python')
print(r) # java,python

上边代码,由于字符串不可变特性,所以replace方法会生成一个新字符串。

 

方法第三个参数flags

flags是匹配模式意思,下边代码,加上re.I,忽略大小写,大写字母A也会匹配到

s = 'aAbB'
r = re.findall('a',s,re.I)
print(r) #['a', 'A']

多个模式之间用 | 隔开    如:re.I | re.S

re.I  忽略大小写,大小写字母都可匹配到

re.S  让  .  忽略换行符 \n ,也就是匹配所有

 

常用的概括字符集:

\d  ----------  表示0-9阿拉伯数字 相当于 [0-9]

import re
s='abc123'
print(re.findall('\d',s)) #['1', '2', '3']

\D  ---------- 表示匹配非数,除数字之外的所有 相当于[^0-9]

s = 'a1b2c3, \r $%&*.'
print(re.findall('\D',s)) # ['a', 'b', 'c', ',', ' ', '\r', ' ', '$', '%', '&', '*', '.']

\w  ---------- 表示匹配 数字、字母、下划线  \w 相当于  [a-zA-Z0-9_]

s = 'a1b2c3, \r $%&*.'
print(re.findall('\w',s)) # ['a', '1', 'b', '2', 'c', '3']

\W  ---------- 表示匹配非 数字、字母、下划线 (与\w相反)

s = 'a1b2c3, \r $%&*.'
print(re.findall('\W',s)) #[',', ' ', '\r', ' ', '$', '%', '&', '*', '.']

\s  ---------- 表示匹配空白字符 如:制表符、回车、换行、空格

s = 'a1b2c3, \r \n$%&*.'
print(re.findall('\s',s)) #[' ', '\r', ' ', '\n']

\S  ---------- 表示匹配非空白字符

s = 'a1\r \n$*.'
print(re.findall('\S',s)) #['a', '1', '$', '*', '.']

---------- 表示匹配除换行符 \n 之外其他所有

s = 'aAbB'
r = re.findall('.',s)
print(r) #['a', 'A', 'b', 'B']

 

数量词:{}

{ } 意思是要匹配的数量

s = '333abc12'
r = re.findall('3{3}',s)  # 前边3是匹配条件,后边3是匹配规则,必须要3个3才能匹配到,{}要匹配的数量
print(r) #['333']

(1)需求:把字符串中abcd和bcd匹配出来:

# 需求:把字符串中 abcd 和bcd匹配出来
s = 'abcd23i,o3bcd-03desdc'
print(re.findall('[a-d]{3,4}',s)) # ['abcd', 'bcd']

上边代码,[a-d]{3,4} 意思是在字符串s中匹配 a到d 个字母 匹配到一个字串的数量是3到4个。

(2)需求:把字符串中的java和JavaScript匹配出来

s = 'JavaScriptabc2332java1ABC'
r = re.findall('[a-zA-Z]{4,10}',s)
print(r) #['JavaScript', 'java']

上边代码,要求匹配一个单词的长度是4-10这一区间内。

我们思考个问题,上边代码,为什么会把JavaScript全部匹配出来,按道理来说,当匹配到长度为4的单词的时候(s前边的a),就已经符合条件了,为什么还会继续往后匹配呢?原因在于:正则表达式的数量词分贪婪和非贪婪之分:

数量词的贪婪匹配和非贪婪匹配

默认情况下,python是一个贪婪匹配模式,也就是说尽可能的按照区间中最大值取匹配,上边代码, 当匹配到s前边a的时候,python还会向后去匹配,直到不符合条件或者超出最大值范围,才会停止匹配。

 

非贪婪匹配:

s = 'JavaScriptabc2332java1ABC'
r = re.findall('[a-zA-Z]{4,10}?',s)
print(r) #['Java', 'Scri', 'ptab', 'java']

上边代码,在花括号最后加上一个问号,匹配模式是编程非贪婪匹配,也就是以区间中最小值为匹配的数量,所以输出结果都是以4个单词为一组的单词。。。

常用的数量词

{ }  上边已经讲过。

*   表示匹配 星号 前边的字符 匹配0次 或者 无限次

s = 'pytho11python22pythonnnn333pythonnnn'
r = re.findall('python*',s)
print(r) # ['pytho', 'python', 'pythonnnn', 'pythonnnn']

+   表示匹配 加号 前边的字符 匹配1次  或者 无限次

s = 'pytho11python22pythonnnn333pythonnnn'
r = re.findall('python+',s)
print(r) # ['python', 'pythonnnn', 'pythonnnn']

?   表示匹配问号前边的字符 匹配0次  或者 1次(如果是重复了,如果 问号 前边的n出现的次数大于1次,它会把重复的n去掉

s = 'pytho11python22pythonnnn333pythonnnn'
r = re.findall('python?',s)
print(r) # ['pytho', 'python', 'python', 'python']

注意普通字符后边的问号和花括号后边的问号作用是不一样的。。。

 

边界匹配

^  从字符串的开始位置 匹配

$  从字符串的末尾  开始匹配

# 需求  qq号要求4-8位数之间
s = '12345678'
r = re.findall('^[0-9]{4,8}$',s) # 必须以4位数开始,以8位数结束,4位数-8位数区间的都可以匹配到
print(r) # ['12345678']
if r:
    print('正确') # 正确
else:
    print('错误')

 

()在括号里边都算是一组,在租后边加上数量词,相当于,把组重复多少次

s = '333ab333c12333'
r = re.findall('(333){1}',s) # 意思是:前边333重复一次还是333,所以能匹配三个333
print(r) # ['333', '333', '333']

( )和 [ ] 区别

( ) 里边元素是 且关系,里边字符必须都出现才行,如:(abc) abc必须都存在才行

   [ ] 里边的元素关系是 或关系,如:[ abc ] 或a 或b 或c   

 

看几个小demo:

1、需求:输出字符串中 <span>和</span>中间的内容,在爬虫爬取数据中非常常用。。。

s = '<span>8月19日,甘肃考察调研</span>'
r = re.findall('<span>(.*)</span>',s)
print(r) # ['8月19日,甘肃考察调研']
s = '<span>甘肃考察调研</span><span>甘肃考察调研</span>'
r = re.findall('<span>(.*)</span><span>(.*)</span>',s)
print(r) # [('甘肃考察调研', '甘肃考察调研')]

如果匹配多个,在列表中会以元祖的形式输出。。。

 

2、匹配出下边 'lx12xccl' 字符

此题用非贪婪匹配,很容易匹配出来,使用match方法,如果匹配到,group(1)方法会返回匹配到的结果的子串

import re
line = 'lx12xccll123'
reg_str = '.*?(l.*?l).*'
res = re.match(reg_str, line)
print(res.group(1)) # 'lx12xccl'

 

 

 

最后在网上找了一些常用正则用法:

 

一、校验数字的表达式

  • 数字:^[0-9]*$

  • n位的数字:^\d{n}$

  • 至少n位的数字:^\d{n,}$

  • m-n位的数字:^\d{m,n}$

  • 零和非零开头的数字:^(0|[1-9][0-9]*)$

  • 非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$

  • 带1-2位小数的正数或负数:^(\-)?\d+(\.\d{1,2})?$

  • 正数、负数、和小数:^(\-|\+)?\d+(\.\d+)?$

  • 有两位小数的正实数:^[0-9]+(.[0-9]{2})?$

  • 有1~3位小数的正实数:^[0-9]+(.[0-9]{1,3})?$

  • 非零的正整数:^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$

  • 非零的负整数:^\-[1-9][]0-9″*$ 或 ^-[1-9]\d*$

  • 非负整数:^\d+$ 或 ^[1-9]\d*|0$

  • 非正整数:^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$

  • 非负浮点数:^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$

  • 非正浮点数:^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$

  • 正浮点数:^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$

  • 负浮点数:^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$

  • 浮点数:^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$

 

二、校验字符的表达式

  • 汉字:^[\u4e00-\u9fa5]{0,}$

  • 英文和数字:^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$

  • 长度为3-20的所有字符:^.{3,20}$

  • 由26个英文字母组成的字符串:^[A-Za-z]+$

  • 由26个大写英文字母组成的字符串:^[A-Z]+$

  • 由26个小写英文字母组成的字符串:^[a-z]+$

  • 由数字和26个英文字母组成的字符串:^[A-Za-z0-9]+$

  • 由数字、26个英文字母或者下划线组成的字符串:^\w+$ 或 ^\w{3,20}$

  • 中文、英文、数字包括下划线:^[\u4E00-\u9FA5A-Za-z0-9_]+$

  • 中文、英文、数字但不包括下划线等符号:^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$

  • 可以输入含有^%&’,;=?$\”等字符:[^%&',;=?$\x22]+

  • 禁止输入含有~的字符:[^~\x22]+

 

三、特殊需求表达式

  • Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$

  • 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?

  • InternetURL:[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$

  • 手机号码:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$

  • 电话号码(“XXX-XXXXXXX”、”XXXX-XXXXXXXX”、”XXX-XXXXXXX”、”XXX-XXXXXXXX”、”XXXXXXX”和”XXXXXXXX):^($$\d{3,4}-)|\d{3.4}-)?\d{7,8}$

  • 国内电话号码(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}

  • 身份证号(15位、18位数字):^\d{15}|\d{18}$

  • 短身份证号码(数字、字母x结尾):^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$

  • 帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$

  • 密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):^[a-zA-Z]\w{5,17}$

  • 强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$

  • 日期格式:^\d{4}-\d{1,2}-\d{1,2}

  • 一年的12个月(01~09和1~12):^(0?[1-9]|1[0-2])$

  • 一个月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$

  • 钱的输入格式:

    • 有四种钱的表示形式我们可以接受:”10000.00″ 和 “10,000.00″, 和没有 “分” 的 “10000″ 和 “10,000″:^[1-9][0-9]*$

    • 这表示任意一个不以0开头的数字,但是,这也意味着一个字符”0″不通过,所以我们采用下面的形式:^(0|[1-9][0-9]*)$

    • 一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号:^(0|-?[1-9][0-9]*)$

    • 这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧.下面我们要加的是说明可能的小数部分:^[0-9]+(.[0-9]+)?$

    • 必须说明的是,小数点后面至少应该有1位数,所以”10.”是不通过的,但是 “10″ 和 “10.2″ 是通过的:^[0-9]+(.[0-9]{2})?$

    • 这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样:^[0-9]+(.[0-9]{1,2})?$

    • 这样就允许用户只写一位小数。下面我们该考虑数字中的逗号了,我们可以这样:^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$

    • 1到3个数字,后面跟着任意个 逗号+3个数字,逗号成为可选,而不是必须:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$

    • 备注:这就是最终结果了,别忘了”+”可以用”*”替代。如果你觉得空字符串也可以接受的话(奇怪,为什么?)最后,别忘了在用函数时去掉去掉那个反斜杠,一般的错误都在这里

  • xml文件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$

  • 中文字符的正则表达式:[\u4e00-\u9fa5]

  • 双字节字符:[^\x00-\xff] (包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1))

  • 空白行的正则表达式:\n\s*\r (可以用来删除空白行)

  • HTML标记的正则表达式:<(\S*?)[^>]*>.*?</\1>|<.*? /> (网上流传的版本太糟糕,上面这个也仅仅能部分,对于复杂的嵌套标记依旧无能为力)

  • 首尾空白字符的正则表达式:^\s*|\s*$或(^\s*)|(\s*$) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式)

  • QQ号:[1-9][0-9]{4,} (QQ号从10000开始)

  • 中国邮政编码:[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)

  • IP地址:\d+\.\d+\.\d+\.\d+ (提取IP地址时有用)

  • IP地址:((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)) 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值