Python爬虫常用的几种数据提取方式

最新推荐文章于 2024-08-23 11:48:36 发布

凯里潇

最新推荐文章于 2024-08-23 11:48:36 发布

阅读量9.3k

点赞数

文章标签：爬虫数据提取

本文链接：https://blog.csdn.net/qq_42331423/article/details/80796683

版权

本文介绍了Python爬虫中常用的数据提取方法，包括正则表达式、BeautifulSoup和PyQuery。正则用于匹配查找，如提取所有a标签文本；BeautifulSoup通过转换HTML为树形结构，方便获取标签属性和内容；PyQuery则提供了类似jQuery的操作方式。

摘要由CSDN通过智能技术生成

python爬虫的几种数据提取方式：正则，bs4，pyquery，xpath，cssselector。

一，正则

提取数据步骤：创建正则对象-->匹配查找-->提取数据保存

<html>
<div><a href='www.baidu.com'>正则</a></div>
<div>111111</div>
<div><a href='www.baidu1.com'>正则1</a></div>
<div>222222</div>
<div><a href='www.baidu2.com'>正则2</a></div>
<div>333333</div>
<div><a href='www.baidu3.com'>正则3</a></div>
<div>444444</div>
</html>

例：提取所有a标签的文本

pattern