正则表达式
正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。
优点
- 测试字符串内的模式。例如,可以测试输入字符串,以查看字符串内是否出现电话号码模式或信用卡号码模式。这称为数据验证。
- 替换文本。可以使用正则表达式来识别文档中的特定文本,完全删除该文本或者用其他文本替换它。
- 基于模式匹配从字符串中提取子字符串。可以查找文档内或输入域内特定的文本。
规则
[ABC] 匹配 […] 中的所有字符
[ ^ABC] 匹配除了 […] 中字符的所有字符
[A-Z] [ A-Z] 表示一个区间,匹配所有大写字母,[a-z] 表示所有小写字母。
[\s\S] 匹配所有。\s 是匹配所有空白符,包括换行,\S 非空白符,不包括换行。
\w 匹配字母、数字、下划线。等价于 [A-Za-z0-9_]
\b 匹配一个单词的边界,也就是指单词和空格间的位置
\d 匹配一个数字字符。等价于[0-9]
. 匹配除换行符 \n 之外的任何单字符。要匹配 . ,请使用 \ .
*:匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 \ *。
+:匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 +
$ :匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 ‘\n’ 或 ‘\r’。要匹配 $ 字符本身,请使用 $。
^ :匹配输入字符串的开始位置,除非在方括号表达式中使用,当该符号在方括号表达式中使用时,表示不接受该方括号表达式中的字符集合。要匹配 ^ 字符本身,请使用 ^。
{ 标记限定符表达式的开始。要匹配 {,请使用 {。
| 指明两项之间的一个选择。要匹配 |,请使用 |。
? 匹配0个或1个由前面的正则表达式定义的片段,非贪婪方式
import re
#a2b h3k
n = 'q2rasdawfs4gas'
r = re.findall(r'[a-z]\d[a-z]',n)
print(r)
#不是以4,7结尾的手机
n = '1213456223'
r = re.match(r'1\d+[0-35-689]$',n)
print(r)
#用户名可以是字母数字下划线,不能数字开头,长度6位以上
msg = 'admin01_q'
r1 = re.match('\D\w{5,}$',msg)
r = re.match('[a-zA-Z]\w{5,}$',msg)
print(r1)
print(r)
+案例
#查找文件
msg = 'aa.py bb.py. qpy.py ww.txt'0
r2 = re.findall(r'\w+\.py\b',msg)
print(r2)
#a2b h32222k
n = 'q222rasdawfs4gas'
r = re.findall(r'[a-z]\d+[a-z]',n)
print(r)
|案例
#匹配数字0-100
n='100'
r1 = re.match(r'[1-9]?\d',n)#可以判断0,但不能100
r2 = re.match(r'[1-9]+\d*',n)#可以100,也可以1000
r = re.match(r'[1-9]?\d?$|100$',n)
print(r)
()案例
#验证输入邮箱 163 126 qq
email = '12341231@qq.com'
r =re.match(r'\w{5,20}@(qq|163|126)\.(com|cn)$',email)
print(r)
分组提取
分组提取,正则式中的每个括号表示一组
n = '010-121345622'
r = re.match(r'(\d{3})-(\d{9})$',n)
#分组提取,正则式中的每个括号表示一组
print(r.group())
print(r.group(1))
print(r.group(2))
re模块
compile()
函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。
match()
尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。
import re
msg = 'TerrariaRimWorld'
pattern1=re.compile('T')
pattern2=re.compile('im')
print(pattern1.match(msg))
print(pattern2.match(msg))
print(re.match('im',msg))
#<re.Match object; span=(0, 1), match='T'>
#None
#None
search()
扫描整个字符串并返回第一个成功的匹配。
span()
返回所查找子字符串的位置
group()
提取匹配到的内容
re.match 只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回 None,而 re.search 匹配整个字符串,直到找到一个匹配。
import re
msg = 'TerrariaRimWorld'
print(re.search('im',msg))
print(re.search('im',msg).span())
print(re.search('im',msg).group())
#<re.Match object; span=(9, 11), match='im'>
#(9, 11)
#im
findall()
在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。
注意: match 和 search 是匹配一次 findall 匹配所有。
sub()
sub(正则中的模式字符串, 替换的字符串(也可为一个函数), 要被查找替换的原始字符串)
用于替换字符串中的匹配项。
m = '<h1>eeee</h1>'
r1 =re.sub(r'<[0-9a-zA-Z]+>|</[0-9a-zA-Z]+>','123',m)
print(r1)#123eeee123
split()
split(pattern, string) 按照能够匹配的子串将字符串分割后返回列表
r1 =re.split('\W+', 'runoob, runoob, runoob.')#['runoob', 'runoob', 'runoob', '']
print(r1)
r2 =re.split('\W?', 'runoob, runoob, runoob.')#['', 'r', 'u', 'n', 'o', 'o', 'b', '', '', 'r', 'u', 'n', 'o', 'o', 'b', '', '', 'r', 'u', 'n', 'o', 'o', 'b', '', '']
print(r2)
贪婪匹配和惰性匹配
- 使用+*等符号时会尽量多的匹配
- 在后面加?时会尽量少的匹配
m = 'aaa333'
r1 =re.match('aaa\d+',m)
print(r1)
r2 =re.match('aaa\d+?',m)
print(r2)
#<re.Match object; span=(0, 6), match='aaa333'>
#<re.Match object; span=(0, 4), match='aaa3'>
爬图片
import re
import requests
path = '<img class="BDE_Image" pic_type="0" src="http://tiebapic.baidu.com/forum/w%3D580/sign=8f62c456bbaf2eddd4f149e1bd110102/762fb412b31bb05101720978217adab44bede0e2.jpg" size="157156" width="560" height="689">'
r = re.match(r'<img class="BDE_Image" pic_type="0" src="(.*?)"',path)
image_path = r.group(1)
response =requests.get(image_path)
with open('a.jpg','wb') as stm:
stm.write(response.content)
hashlib模块
hashlib模块:各种加密算法
- md5,sha256等 不可逆的加密
- base64 可逆的解密
import hashlib
msg = '今中午吃冒菜'
md5 = hashlib.md5(msg.encode('utf-8'))
print(md5.hexdigest())
#ea7269056a065ad458defaa84bc5a7bf