Python爬虫(八)——正则表达式
概念
正则表达式(regular expression,RE)是一种通用的字符表达框架,用来简洁表达一组字符串的表达式。
作用
- 表达文本类型的特征
- 查找或替换一组字符串
- 匹配字符串的全部或部分
使用
将符合正则表达式语法的字符串转换成正则表达式。
语法
正则表达式由字符和操作符构成
常用操作符
操作符 | 说明 | 实例 |
---|---|---|
. | 表示任何单个字符 | |
[] | 字符集,对单个字符给出取值范围 | [abc]表示a、b、c,[a-z]表示a到z单个字符 |
[^] | 非字符集,对单个字符给出排除范围 | [^abc]表示非a或b或c的单个字符 |
* | 克林闭包 | |
+ | 正闭包 | |
? | 前一个字符0次或1次拓展 | a?表示Φ或a |
| | 左右表达式任意一个 | ab|de表示ab或de |
{m} | 扩展前一个字符m次 | ab{2}c表示abbc |
{m,n} | 扩展前一个字符m至n次(包含n) | ab{1,2}c表示abc或abbc |
^ | 匹配字符串开头 | ^abc表示abc且abc在字符串的开头 |
$ | 匹配字符串结尾 | abc$表示abc且abc在字符串的结尾 |
() | 分组标记,内部只能使用 | 操作符(abc)表示abc,(abc|def)表示abc或def |
\d | 数字,等价于[0-9] | |
\w | 单词字符,等价于[A-Za-z0-9] |
使用
Re库是Python的标准库,主要用于字符串匹配。它使用raw string类型表示正则表达式。
调用:
import re
raw string不包含转义符,只用在普通string类型的字符串之前