前言:
初次接触正则表达式是在学习Python爬虫的时候,需要将爬下来的网页进行解析,不过在学习完正则表达式感觉比较繁琐,所以使用比较多的还是bs4和xpath。最近因为需要,将正则表达式重新再学一遍并记录下来。
一、概念
正则表达式是由一些具有特殊含义的字符组成的字符串,多用于查找、替换符合规则的字符串。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。
二、应用场景
(1)验证:表单提交时,进行用户名密码的验证。
(2)查找:从大量信息中快速提取指定内容,在一批url中,查找指定url。
(3)替换:将指定格式的文本进行正则匹配查找,找到之后进行特定替换。
三、基本要素
常用字符
代码 | 说明 |
---|---|
. | 匹配除换行符以外的任意字符 |
\s | 匹配任意的空白符 |
\w | 匹配字母或数字或下划线或汉字 |
\d | 匹配数字 |
\b | 匹配单词的开始或结束 |
^ | 匹配字符串的开始 |
$ | 匹配字符串的结束 |
\W | 匹配任意不是字母、数字、下划线、汉字的字符 |
\S | 匹配任意不是空白符的字符 |
\D | 匹配任意非数字的字符 |
\B | 匹配不是单词开头的任意字符 |
[^x] | 匹配除了x以外的任意字符 |
[^aeiou] | 匹配除了aeiou这几个字母以外的任意字符 |
* | 重复零次或更多次 |
+ | 重复一次或更多次 |
? | 重复零次或一次 |
[n] | 重复n次 |
[n,] | 重复n次或更多次 |
[n,m] | 重复n到m次 |
常用函数
函数 | 作用 |
---|---|
match() | 从一个字符串中匹配正则表达式的第一个位置,返回一个Match对象,否则返回None |
search() | 在一个字符串的开始位置起匹配正则表达式,返回一个Match对象,否则返回None |
findall() | 搜索字符串,以列表类型返回全部能匹配的字串 |
spilt() | 将一个字符串安装正则表达式匹配结果进行分割,返回列表类型 |
finditer() | 搜索字符串,返回一个匹配结果的迭代类型,每个迭代类型是match对象 |
sub | 在一个字符串中替换所有匹配正则表达式的字串,返回替换后的字符串 |
四、简单实例
1.判断正则表达式是否匹配
import re
if re.match(r'^\d{3}\-\d{3,8}$', '010-12345'):
print('ok')
else:
print('failed')
2.切分字符串
用正则表达式切分字符串比用固定的字符更灵活,请看正常的切分代码:
import re
test_list = []
test_list = re.split(r'[\s\,\;]+', 'a,b;; c d')
print(test_list)
3.分组
除了简单地判断是否匹配之外,正则表达式还能提取字串。
t = '23:59:08'
m = re.match(r'^(0[0-9]|1[0-9]|2[0-3]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$', t)
# m = re.match(r'(.*):(.*):(.*)', t)
print(m.groups())
4.练习
测试题目:
请将以下字符串中的;电话号码,邮箱,skill list, “[em>”后面的字符 “;”之前 的字符串,分别使用一个正则表达式抓取出来
”No 1 , my name is Lily , you can [em>>> call me ,here is my phone number ,aways something wrong coming 8927+79+86+87 +86 199 0099 0099 093678this is not part of my number, and also you find me by this Email . nextLily@what.com isthis www@1234 ??
skill lists below [dm][…]
[python].>’’
[c++]sommm,
[c#]why?
[object-c] what is this
[em>error function; [em>crash issue; [em>normal infos;”
email_number = re.search(r'\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*',t)
# \w表示任意大小写字母、0-9数字、下划线,+为至少出现1个以上字符,[-+.]\w+任意包含- + .及 \w字符的组合出现0次或多次
tel_number = re.findall(r'\d{4}\+\d{2}\+\d{2}\+\d{2}|\+\d{2}\s\d{3}\s\d{4}\s\d{4}',t)
skils_list = re.findall(r'(?<! )\[\w+\S{0,2}\]',t)
em_str = re.findall('(?<=\[em>)\w+\s*\w+[^;]', t