Python爬虫学习笔记（十一）————scrapy shell

最新推荐文章于 2024-07-20 17:12:48 发布

阿波拉

最新推荐文章于 2024-07-20 17:12:48 发布

阅读量302

点赞数 1

分类专栏：爬虫学习文章标签： python 爬虫学习 scrapy 网络爬虫 scrapy shell

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/laosao_66/article/details/131841780

版权

爬虫学习专栏收录该内容

13 篇文章 6 订阅

订阅专栏

目录

1.什么是scrapy shell？

2.安装ipython 安装

（1）scrapy shell www.baidu.com

（2）scrapy shell http://www.baidu.com

（3）scrapy shell "http://www.baidu.com"

（4）scrapy shell "www.baidu.com"

（1）response对象：

（2）response的解析：

（3）selector对象（通过xpath方法调用返回的是seletor列表）

1.什么是scrapy shell？

Scrapy终端，是一个交互终端，供您在未启动spider的情况下尝试及调试您的爬取代码。其本意是用来测试提取数据的代码，不过您可以将其作为正常的Python终端，在上面测试任何的Python代码。该终端是用来测试XPath或CSS表达式，查看他们的工作方式及从爬取的网页中提取的数据。在编写您的spider时，该终端提供了交互性测试您的表达式代码的功能，免去了每次修改后运行spider的麻烦。一旦熟悉了Scrapy终端后，您会发现其在开发和调试spider时发挥的巨大作用。

2.安装ipython 安装

pip install ipython

简介：如果您安装了 IPython ，Scrapy终端将使用 IPython (替代标准Python终端)。 IPython 终端与其他相比更为强大，提供智能的自动补全，高亮输出，及其他特性。

3.应用

进入到scrapy shell的终端直接在window的终端中输入scrapy shell 域名
如果想看到一些高亮或者自动补全那么可以安装ipython pip install ipython

（1）scrapy shell www.baidu.com

（2）scrapy shell http://www.baidu.com

（3）scrapy shell "http://www.baidu.com"

（4）scrapy shell "www.baidu.com"

4.语法

（1）response对象：

response.body

response.text

response.url

response.status

（2）response的解析：

response.xpath() （常用）

使用xpath路径查询特定元素，返回一个selector列表对象

response.css()

使用css_selector查询元素，返回一个selector列表对象

获取内容：response.css('#su::text').extract_first()

获取属性：response.css('#su::attr(“value”)').extract_first()

（3）selector对象（通过xpath方法调用返回的是seletor列表）

extract()

提取selector对象的值

如果提取不到值那么会报错

使用xpath请求到的对象是一个selector对象，需要进一步使用extract()方法拆包，转换为unicode字符串

extract_first()

提取seletor列表中的第一个值

如果提取不到值会返回一个空值

返回第一个解析到的值，如果列表为空，此种方法也不会报错，会返回一个空值

xpath()

css()

注意：每一个selector对象可以再次的去使用xpath或者css方法

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫学习笔记（十一）————scrapy shell

Scrapy终端，是一个交互终端，供您在未启动spider的情况下尝试及调试您的爬取代码。其本意是用来测试提取数据的代码，不过您可以将其作为正常的Python终端，在上面测试任何的Python代码。该终端是用来测试XPath或CSS表达式，查看他们的工作方式及从爬取的网页中提取的数据。在编写您的spider时，该终端提供了交互性测试您的表达式代码的功能，免去了每次修改后运行spider的麻烦。一旦熟悉了Scrapy终端后，您会发现其在开发和调试spider时发挥的巨大作用。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。