本文带大家学习正则表达式,并通过 python 代码举例讲解常用的正则表达式
最后实战爬取小说网页:重点在于爬取的网页通过正则表达式进行解析。
正则表达式语法
Python 的 re 模块(正则表达式)提供各种正则表达式的匹配操作。在绝大多数情况下能够有效地实现对复杂字符串的分析并取出相关信息。在讲解如何实际应用正则表达式之前,先教大家学习并掌握正则表达式的基本语法(匹配规则)。
正则表达式匹配过程如下:
(1)将定义好的正则表达式和字符串进行比较。
(2)如果每一个字符串都能匹配,则成功;一旦有匹配不成功的字符则匹配失败。
正则表达式规则
常见规则
数量词匹配规则
边界匹配规则
Re 模块
Python 中使用 Re 库去定义的正则表达式,常用的方法列举如下:
lpattern 对象
re.compile(string[,flag])
l 匹配所用函数
re.match(pattern, string[, flags])
re.search(pattern, string[, flags])
re.split(pattern, string[, maxsplit])
re.findall(pattern, string[, flags])
re.finditer(pattern, string[, flags])
re.sub(pattern, repl, string[, count])
re.subn(pattern, repl, string[, count])
其中 pattern 对象是由我们传入字符串对象,通过 compile 方法生成。利用这个对象来进行下一步的匹配。针对上述列举的各种正则表达式匹配规则和函数,下面