Python正则表达式

前言:

初次接触正则表达式是在学习Python爬虫的时候,需要将爬下来的网页进行解析,不过在学习完正则表达式感觉比较繁琐,所以使用比较多的还是bs4和xpath。最近因为需要,将正则表达式重新再学一遍并记录下来。

一、概念

   正则表达式是由一些具有特殊含义的字符组成的字符串,多用于查找、替换符合规则的字符串。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。

二、应用场景

(1)验证:表单提交时,进行用户名密码的验证。

(2)查找:从大量信息中快速提取指定内容,在一批url中,查找指定url。

(3)替换:将指定格式的文本进行正则匹配查找,找到之后进行特定替换。

三、基本要素

常用字符

代码说明
.匹配除换行符以外的任意字符
\s匹配任意的空白符
\w匹配字母或数字或下划线或汉字
\d匹配数字
\b匹配单词的开始或结束
^匹配字符串的开始
$匹配字符串的结束
\W匹配任意不是字母、数字、下划线、汉字的字符
\S匹配任意不是空白符的字符
\D匹配任意非数字的字符
\B匹配不是单词开头的任意字符
[^x]匹配除了x以外的任意字符
[^aeiou]匹配除了aeiou这几个字母以外的任意字符
*重复零次或更多次
+重复一次或更多次
重复零次或一次
[n]重复n次
[n,]重复n次或更多次
[n,m]重复n到m次

常用函数

函数作用
match()从一个字符串中匹配正则表达式的第一个位置,返回一个Match对象,否则返回None
search()在一个字符串的开始位置起匹配正则表达式,返回一个Match对象,否则返回None
findall()搜索字符串,以列表类型返回全部能匹配的字串
spilt()将一个字符串安装正则表达式匹配结果进行分割,返回列表类型
finditer()搜索字符串,返回一个匹配结果的迭代类型,每个迭代类型是match对象
sub在一个字符串中替换所有匹配正则表达式的字串,返回替换后的字符串

四、简单实例

1.判断正则表达式是否匹配

import re
if re.match(r'^\d{3}\-\d{3,8}$', '010-12345'):
    print('ok')
else:
    print('failed')

2.切分字符串
   用正则表达式切分字符串比用固定的字符更灵活,请看正常的切分代码:

import re
test_list = []
test_list = re.split(r'[\s\,\;]+', 'a,b;; c  d')
print(test_list)

3.分组
   除了简单地判断是否匹配之外,正则表达式还能提取字串。

t = '23:59:08'
m = re.match(r'^(0[0-9]|1[0-9]|2[0-3]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$', t)
# m =  re.match(r'(.*):(.*):(.*)', t)
print(m.groups())

4.练习
测试题目:
请将以下字符串中的;电话号码,邮箱,skill list, “[em>”后面的字符 “;”之前 的字符串,分别使用一个正则表达式抓取出来
”No 1 , my name is Lily , you can [em>>> call me ,here is my phone number ,aways something wrong coming 8927+79+86+87 +86 199 0099 0099 093678this is not part of my number, and also you find me by this Email . nextLily@what.com isthis www@1234 ??
skill lists below [dm][…]
[python].>’’
[c++]sommm,
[c#]why?
[object-c] what is this
[em>error function; [em>crash issue; [em>normal infos;”

email_number = re.search(r'\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*',t)
# \w表示任意大小写字母、0-9数字、下划线,+为至少出现1个以上字符,[-+.]\w+任意包含- + .及 \w字符的组合出现0次或多次
tel_number = re.findall(r'\d{4}\+\d{2}\+\d{2}\+\d{2}|\+\d{2}\s\d{3}\s\d{4}\s\d{4}',t)
skils_list = re.findall(r'(?<! )\[\w+\S{0,2}\]',t)
em_str = re.findall('(?<=\[em>)\w+\s*\w+[^;]', t
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值