正则表达式(一)

最新推荐文章于 2023-08-31 14:07:32 发布

Mikowoo007

最新推荐文章于 2023-08-31 14:07:32 发布

阅读量210

点赞数

分类专栏： Python3爬虫

本文链接：https://blog.csdn.net/Mikowoo007/article/details/85553409

版权

3 篇文章 0 订阅

订阅专栏

'Hello, my phone number is 010-86432100 and email is cqc@cuiqingcai.com, and my website is https://cuiqingcai.com'

正则表达式

[a-zA-z]+://[^\s]*

a-z 代表匹配任意的小写字母
\s 表示匹配任意的空白字符
* 代表匹配前面的字符任意多个

模式	描述
\w	匹配字母、数字及下划线
\W	匹配不是字母、数字及下划线的字符
\s	匹配任意空白字符，等价与[ \t\n\r\f ]
\S	匹配任意非空字符
\d	匹配任意数字，等价于[0-9]
\D	匹配任意非数字的字符
\A	匹配字符串开头
\Z	匹配字符串结尾，如果存在换行，只匹配到换行前的结束字符串
\z	匹配字符串结尾，如果存在换行，同时还会匹配换行符
\G	匹配最后匹配完成的位置
\n	匹配一个换行符
\t	匹配一个制表符
^	匹配一行字符串的开头
$	匹配一行字符串的结尾
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符
[…]	用来表示一组字符，单独列出，比如 [ amk ] 匹配a, m 或 k
[^…]	不在[ ]中的字符，比如 [ ^abc ] 匹配除了 a,b,c 之外的字符
*	匹配0个或多个表达式
+	匹配1个或多个表达式
?	匹配0个或1个前面的正则表达式定义的片段，非贪婪方式
{n}	精确匹配n个前面的表达式
{n,m}	匹配n到m次由前面正则表达式定义的片段，贪婪方式
a\|b	匹配 a 或 b
()	匹配括号内的表达式，也表示一个组

修饰符	描述
re.I	使匹配对大小写不敏感
re.L	做本地化识别(locale-aware)匹配
re.M	多行匹配，影响^和$
re.S	使 . 匹配包括换行在内的所有字符
re.U	根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B
re.X	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解

字符串

'Hello 123 4567 World_This is a Regex Demo'

正则表达式

^Hello\s\d\d\d\s\d{4}\s\w{10}

开头的^是匹配字符串的开头，也就是以Hello开头
\s匹配空白字符，用来匹配目标字符串的空格
\d匹配数字，3个\d匹配123
\s匹配空格
{4} 代表匹配前面的规则4次，也就是匹配4个数字
\w{10} 匹配10个字母及下划线

关注