python网络爬虫正则表达式

最新推荐文章于 2020-04-08 16:45:23 发布

shine10076

最新推荐文章于 2020-04-08 16:45:23 发布

阅读量218

点赞数

分类专栏：网络爬虫与网络数据采集

本文链接：https://blog.csdn.net/shine10076/article/details/83793185

版权

4 篇文章 0 订阅

订阅专栏

正则字符串
正则字符串：就是任意可以用一系列线性规则构成的字符串。
例如：
aabbbbb(cc)(d| )
将其分解为

[A-Za-z0-9\._+]+@[A-Za-z]+\.(com|org|net|edu)

其中：

邮箱地址的第一部分至少包括一种内容：大写字母，小写字母，数字0-9，点号.加号+或者下划线_:[A-Za-z0-9._+]+:这个表示括号里的任意一个符号都可能出现，后面的+表示这些字符都可以出现多次，且至少出现一次
@：这很直接
[A-Za-z]+：符号@后面只能出现字母
(com|org|net|edu)：一般邮箱的后缀是其中四个之一
正则表达式的常用符号

符号	含义	例子	匹配结果
*	匹配前面的字符，子表达式或者括号里的字符0次或者多次	ab	aaaa,aabb,aaab,bbbb
+	匹配前面的字符，子表达式或者括号i里的字符至少一次	a+b+	aaabb,aabb,ab
[]	匹配任意一个字符，相当于任意选择一个	[A-Z]*	APPLE,CAPTIALS,QWERTY
()	表达式编组（在正则表达式的规则里编组会优先运行）	(ab)	aaabaab
{m,n}	匹配前面的字符，子表达式或者括号里的字母 m到n次(包括m和n次)	a{2，3}b{2,3}	aabbb,aaabb
[^]	匹配任意一个不在中括号里的字符	[^A-Z]*	apple,lowercase
\|	匹配任意一个竖线分割的字符	b(a\|i\|e)d	bad,bid,bed
.	匹配任意单个符号	b.d	bad,bed
^	指字符串开始位置的字符或子表达式	^a	apple,asdf,a
\	转义字符
$	常用于正则表达式的末尾，表示从字符串末端匹配，如果不用他，每个正则表达式实际上都带着.*模式，只会从字符串开头匹配	[A-Z][a-z]	ABCabc,zzzyx
?!	“不包含”。通常放在字符或者正则表达式的前面，表示字符不能出现在目标字符串中，比较难用

关注