Python正则表达式

最新推荐文章于 2024-07-19 16:36:18 发布

叫我Zane

最新推荐文章于 2024-07-19 16:36:18 发布

阅读量581

点赞数

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/Algabeno/article/details/124015469

版权

Python 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

前言：

初次接触正则表达式是在学习Python爬虫的时候，需要将爬下来的网页进行解析，不过在学习完正则表达式感觉比较繁琐，所以使用比较多的还是bs4和xpath。最近因为需要，将正则表达式重新再学一遍并记录下来。

一、概念

正则表达式是由一些具有特殊含义的字符组成的字符串，多用于查找、替换符合规则的字符串。它的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，我们就认为它“匹配”了，否则，该字符串就是不合法的。

二、应用场景

（1）验证：表单提交时，进行用户名密码的验证。

（2）查找：从大量信息中快速提取指定内容，在一批url中，查找指定url。

（3）替换：将指定格式的文本进行正则匹配查找，找到之后进行特定替换。

三、基本要素

常用字符

代码	说明
.	匹配除换行符以外的任意字符
\s	匹配任意的空白符
\w	匹配字母或数字或下划线或汉字
\d	匹配数字
\b	匹配单词的开始或结束
^	匹配字符串的开始
$	匹配字符串的结束
\W	匹配任意不是字母、数字、下划线、汉字的字符
\S	匹配任意不是空白符的字符
\D	匹配任意非数字的字符
\B	匹配不是单词开头的任意字符
[^x]	匹配除了x以外的任意字符
[^aeiou]	匹配除了aeiou这几个字母以外的任意字符
*	重复零次或更多次
+	重复一次或更多次
？	重复零次或一次
[n]	重复n次
[n,]	重复n次或更多次
[n,m]	重复n到m次

常用函数

函数	作用
match()	从一个字符串中匹配正则表达式的第一个位置，返回一个Match对象，否则返回None
search()	在一个字符串的开始位置起匹配正则表达式，返回一个Match对象，否则返回None
findall()	搜索字符串，以列表类型返回全部能匹配的字串
spilt()	将一个字符串安装正则表达式匹配结果进行分割，返回列表类型
finditer()	搜索字符串，返回一个匹配结果的迭代类型，每个迭代类型是match对象
sub	在一个字符串中替换所有匹配正则表达式的字串，返回替换后的字符串

四、简单实例

1.判断正则表达式是否匹配

import re
if re.match(r'^\d{3}\-\d{3,8}$', '010-12345'):
    print('ok')
else:
    print('failed')

2.切分字符串
用正则表达式切分字符串比用固定的字符更灵活，请看正常的切分代码：

import re
test_list = []
test_list = re.split(r'[\s\,\;]+', 'a,b;; c  d')
print(test_list)

3.分组
除了简单地判断是否匹配之外，正则表达式还能提取字串。

t = '23:59:08'
m = re.match(r'^(0[0-9]|1[0-9]|2[0-3]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$', t)
# m =  re.match(r'(.*):(.*):(.*)', t)
print(m.groups())

4.练习
测试题目：
请将以下字符串中的；电话号码，邮箱，skill list, “[em>”后面的字符 “;”之前的字符串，分别使用一个正则表达式抓取出来
”No 1 , my name is Lily , you can [em>>> call me ,here is my phone number ,aways something wrong coming 8927+79+86+87 +86 199 0099 0099 093678this is not part of my number, and also you find me by this Email . nextLily@what.com isthis www@1234 ??
skill lists below [dm][…]
[python].>’’
[c++]sommm,
[c#]why?
[object-c] what is this
[em>error function; [em>crash issue; [em>normal infos;”

email_number = re.search(r'\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*',t)
# \w表示任意大小写字母、0-9数字、下划线，+为至少出现1个以上字符，[-+.]\w+任意包含- + .及 \w字符的组合出现0次或多次
tel_number = re.findall(r'\d{4}\+\d{2}\+\d{2}\+\d{2}|\+\d{2}\s\d{3}\s\d{4}\s\d{4}',t)
skils_list = re.findall(r'(?<! )\[\w+\S{0,2}\]',t)
em_str = re.findall('(?<=\[em>)\w+\s*\w+[^;]', t

叫我Zane

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python正则表达式

前言：初次接触正则表达式是在学习Python爬虫的时候，需要将爬下来的网页进行解析，不过在学习完正则表达式感觉比较繁琐，所以使用比较多的还是bs4和xpath。最近因为需要，将正则表达式重新再学一遍并记录下来。一、概念   正则表达式是由一些具有特殊含义的字符组成的字符串，多用于查找、替换符合规则的字符串。它的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，我们就认为它“匹配”了，否则，该字符串就是不合法的。二、应用场景（1）验证：表单提交时，进行用户
复制链接

扫一扫