python正则表达式

python字符串U/u, R/r

u/U:表示unicode字符串 
不是仅仅是针对中文, 可以针对任何的字符串,代表是对字符串进行unicode编码。 
一般英文字符在使用各种编码下, 基本都可以正常解析, 所以一般不带u;但是中文, 必须表明所需编码, 否则一旦编码转换就会出现乱码。 
建议所有编码方式采用utf8

r/R:非转义的原始字符串 (表示原始字符串,不转义特殊字符)
与普通字符相比,其他相对特殊的字符,其中可能包含转义字符,即那些,反斜杠加上对应字母,表示对应的特殊含义的,比如最常见的”\n”表示换行,”\t”表示Tab等。而如果是以r开头,那么说明后面的字符,都是普通的字符了,即如果是“\n”那么表示一个反斜杠字符,一个字母n,而不是表示换行了。 
以r开头的字符,常用于正则表达式,对应着re模块。

邮箱正则

[A-Za-z0-9\._+]+@[A-Za-z]+\.(com|org|edu|net)

[A-Za-z0-9_-]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$

#用正则匹配出标签<div>中的内容,其中class的类名是不确定的
import re
text = '<div class='learn'>python</div>'
res = re.findall(r'<div class='.*'>(.*?)</div>',text)
print(res)

(.*) 和(.*?)区别

(.*)是贪婪匹配,会把满足正则的尽可能多的往后匹配

(.*?)非贪婪匹配, 会把满足正则的尽可能少的匹配

import re
s = '<a>哈哈</a><a>呵呵</a>'
res1 = re.findall(r'<a>(.*)</a>',s)
print('贪婪匹配',res1)
res2 = re.findall(r'<a>(>*?)</a>',s)
print('非贪婪',res2)

>>>贪婪匹配['哈哈</a><a>呵呵']
>>>非贪婪['哈哈','呵呵']

 

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值