爬虫基础——正则爬虫、Beautifulsoup爬虫、Lxml爬虫对比
一、正则爬虫1.一些基础:(1)(.*?)其中“()”表示括号的内容作为返回结果,“.*?”是非贪心算法,匹配任意字符(2)re模块re模块使Python拥有全部正则表达式功能,若想通过正则爬虫,首先就需要导入这个模块:import re这里介绍利用re模块正则爬虫常用的一个函数:findall(),其语法规则是findall(正则表达式,字符串)。findall()函数能匹配所有符合规律的内容,并以列表的形式返回结果。(3)补充知识点re.S 使匹配包括换行符在...
原创
2021-09-19 16:20:12 ·
670 阅读 ·
0 评论