scrapy html不完整_爬虫：Scrapy笔记- Selector详解

最新推荐文章于 2021-06-19 05:38:13 发布

编剧学徒

最新推荐文章于 2021-06-19 05:38:13 发布

阅读量372

点赞数

文章标签： scrapy html不完整

本文链接：https://blog.csdn.net/weixin_42518930/article/details/113316746

版权

Scrapy笔记04- Selector详解

在你爬取网页的时候，最普遍的事情就是在页面源码中提取需要的数据，我们有几个库可以帮你完成这个任务：

而Scrapy实现了自己的数据提取机制，它们被称为选择器，通过XPath或CSS表达式在HTML文档中来选择特定的部分

XPath是一用来在XML中选择节点的语言，同时可以用在HTML上面。 CSS是一种HTML文档上面的样式语言。

Scrapy选择器构建在lxml基础之上，所以可以保证速度和准确性。

本章我们来详细讲解下选择器的工作原理，还有它们极其简单和相似的API，比lxml的API少多了，因为lxml可以用于很多其他领域。

完整的API请查看Selector参考

关于选择器

Scrapy帮我们下载完页面后，我们怎样在满是html标签的内容中找到我们所需要的元素呢，这里就需要使用到选择器了，它们是用来定位元素并且提取元素的值。先来举几个例子看看：

Scrapy使用css和xpath选择器来定位元素，它有四个基本方法：

使用选择器

下面我们通过Scrapy shell演示下选择器的使用&#

关注