这篇笔记适用于爬取网页信息时,选择保存整个html文件,再过滤得到其中需要的信息。
用到的技术是python正则表达式处理,推荐一篇正则表达式基础文章:点击打开链接
⑴通过re模块提供对正则表达式的支持
⑵使用到其中的功能函数findall(),实现遍历匹配,可以获取字符串中所有匹配的字符串,返回一个列表。
⑶使用到函数中的参数:re.S(DOTALL)使.匹配包括换行在内的所有字符、re.M(MULTILINE)多行匹配,影响^和$
-------------------------------------------------------------------------------------------------------------------