Python爬虫之抓取数据——正则表达式/Beautiful Soup/Lxml

最新推荐文章于 2024-09-19 11:21:52 发布

Vic时代

最新推荐文章于 2024-09-19 11:21:52 发布

阅读量2.4k

点赞数 1

分类专栏：编程语言Python

本文链接：https://blog.csdn.net/VictoriaW/article/details/77159516

版权

本文介绍了Python爬虫中三种数据抓取方式：正则表达式、Beautiful Soup和Lxml，并对比了它们的性能。Lxml因C语言实现而速度最快，Beautiful Soup则能处理不规范的HTML。

摘要由CSDN通过智能技术生成

有三种抓取网页中数据的方式：正则表达式，Beautiful Soup和lxml。

正则表达式

items = re.findall(regexp, str)

items = re.findall('<div.*?class="p-img">.*?<a.*?title="(.*?)".*?href="(.*?)".*?="//(.*?)".*?<div.*?class="p-price">.*?<i>(.*?)</i>', str_page, re.S)
#(.*?)是希望抓取的数据。items是个列表，长度是匹配次数；items的元素本身也是个列表，长度是(.*?)出现的次数