之所以叫正则表达式,是因为它们可以识别正则字符串(regular string)而什么又是正则字符串呢?其实就是任意可以用一系列线性规则构成的字符串,就像:
(1) 字母“a”至少出现一次;
(2) 后面跟着字母“b”重复 5 次;
(3) 后面再跟字母“c”重复任意偶数次;
(4) 最后一位是字母“d”,也可以没有。
在python爬虫中会经常用到正则表达式,所以掌握一些常用的正则表达式十分重要。下面这个表格列举了python爬虫中常用的一些正则表达式符号。
![](https://img-blog.csdnimg.cn/20200428111405746.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3N0aWNrdG8xMV8=,size_16,color_FFFFFF,t_70)
![](https://img-blog.csdnimg.cn/20200429223412887.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3N0aWNrdG8xMV8=,size_16,color_FFFFFF,t_70)
注意:.匹配的是处换行符之外的字符。如果需要匹配换行符,需要添加re.S。