Python爬虫学习三——re库
bs库是提取网页内容的一种方法,另外一种提取网页感兴趣内容的方法就是使用re库,通过匹配得到对应的字符串。
1 re简介
re、regex、regular expression、正则表达式,一个意思。正则表达式是用来简洁表达一组字符串的表达式。正则表达式使用的是特征,和python一样具有简单优雅的特点。正则表达式的应用十分广泛,最常见也最容易视而不见的地方就是文本搜索,如word中搜索高级选项中就有使用正则表达式一项,勾选之后可以使用正则表达式来搜索具有某种特征的文本内容。
初看正则表达式,如”-?\d+$”,会有“这确定不是乱码?”的疑问,深入学习之后,就会发现一个新世界。本人水平有限,本文仅介绍简单的正则表达式。对了,上述乱码似的正则表达式表示的是整数形式的字符串。
re库是python中的默认库,无论你安装基本的python环境还是anaconda等集成环境,都已经安装了re库,可以使用import re来测试。
2 re基本语法
正则表达式语言由字符和操作符构成。常用的正则表达式操作符有: