python爬虫提取信息:正则表达式和xpath

最新推荐文章于 2024-09-30 14:42:32 发布

lyf40404

最新推荐文章于 2024-09-30 14:42:32 发布

阅读量3.6k

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_22905955/article/details/73504111

版权

爬虫的关键在于从网页中提取数据，本文介绍了使用Python的正则表达式和XPath两种方法。正则表达式简洁快速，但可能因数据混杂导致提取不准确；XPath对XML格式解析规范，需要对XML有一定理解。推荐使用requests和re库进行正则匹配，而Scrapy配合lxml进行XPath解析，提供了更全面的功能，如设置浏览器伪装。

摘要由CSDN通过智能技术生成

爬虫主要是两个功能，一是访问网页，二是从网页中提取数据。事实上访问网页基本都是调用接口直接就可以访问，而从网页中正确地提取数据是主要工作量所在。

这里给出两种提取数据的选择和用到的相关库。

先说说两种方法的特点：

python正则表达式：速度快，一整篇html能够用一句简短的正则表达式解决。但是有的html用正则表达式取到的数据会混乱（多个段落符合正则表达式，但是其中有的数据并不是我们想要提取的）。另外，下文推荐的python库request和re很简单。

xpath:xpath对xml格式的东西解析比较规范，基本上能做到你想要哪个数据就取哪个数据。但是要对xml格式有精确的了解。可以用lxml对xml解析。

scrapy应该还有一些别的爬虫优势我不知道的，比如其settings.py文件中应该可以伪装浏览器信息等，以后再研究。

下面就给出两种方法的具体操作用法吧：

1.python正则表达式:正则表达式语法规则参考 http://www.cnblogs.com/fnng/archive/2013/05/20/3089816.html

主要用到的函数是request.get()（请求网站）和re.findall()（正则表达式）

这里贴出一个小函数

def

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。