用Python爬取中国校花网后，我发现她们都有个共同点-CSDN博客

本文链接：https://blog.csdn.net/Pythoncxy/article/details/99692852

本文介绍了如何使用Python的Scrapy框架爬取中国校花网的数据，重点讲解了Scrapy选择器的使用，包括XPath和CSS选择器。通过Scrapy Shell进行调试，演示了提取网页标题、链接等信息的步骤，并给出了爬取校花网图片的简单爬虫示例。

摘要由CSDN通过智能技术生成

我们都知道，爬虫获取页面的响应之后，最关键的就是如何从繁杂的网页中把我们需要的数据提取出来，

python从网页中提取数据的包很多，常用的解析模块有下面的几个：

BeautifulSoup API简单但解析速度慢，不推荐使用
lxml 由C语言编写的xml解析库(libxm2),解析速度快但是API复杂
Scrapy 综合以上两者优势实现了自己的数据提取机制，被称为Selector选择器。

它是由lxml库构建的，并简化了API ，先通过XPath或者CSS选择器选中要提取的数据，然后进行提取

Python资源共享群：484031800

Scrapy选择器构建于 lxml 库之上，这意味着它们在速度和解析准确性上非常相似。

Selector选择器的用法

下面我们以 Scrapy Shell 和 Scrapy 文档服务器的一个样例页面(url= http://doc.scrapy.org/en/latest/_static/selectors-sample1.html ) 来了解选择器的基本用法:

构造选择器

Scrapy selector 可以以文字（Text），二进制（content）或 TextResponse 构造的 Selector。其根据输入类型自动选择最优的分析方法以文字构造：

在学习过程中有什么不懂得可以加我的 python学习交流扣扣qun，784758214 群里有不错的学习视频教程、开发工具与电子书籍。 与你分享python企业当下人才需求及怎么从零基础学习好python，和学习什么内容 url = "http://doc.scrapy.org/en/latest/_static/selectors-sample1.html" response = requests.get(url=url) selector = Selector(text=response.text)

以 response 构造：

selector = Selector(response=response)

以二进制构造：

selector = Selector(text=response.content)

使用选择器

这里强烈推荐使用 scrapy shell 来进行调试！

为什么要使用 scrapy shell ？

当我们需要爬取某个网站，然后提取数据的时候，要用到 xpath css 或者正则提取方法等

但是有时候这些xpath 或者css 语句不一定一次就能写对，有时候需要我们不断地去调试。

可能有些人会说，我每写一次然后重新去请求，输出结果测试一下就知道了。只能说这种做法就比较愚蠢了，如果遇到那种容易封IP的网站，你这样频繁的去请求测试，测不了几次，你的ip就被封了

这时候，我们要使用 scrapy shell 去调试，测试成功后，在拷贝到我们的项目中就可以了

如何使用 scrapy shell？

首先打开 Shell, 然后输入命令 scrapy shell url

scrapy shell http://doc.scrapy.org/en/latest