Scrapy shell

一、Scrapy shell简介

Scrapy终端是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码。 其本意是用来测试提取数据的代码,不过您可以将其作为正常的Python终端,在上面测试任何的Python代码。

该终端是用来测试XPath或CSS表达式,查看他们的工作方式及从爬取的网页中提取的数据。 在编写您的spider时,该终端提供了交互性测试您的表达式代码的功能,免去了每次修改后运行spider的麻烦。

一旦熟悉了Scrapy终端后,您会发现其在开发和调试spider时发挥的巨大作用。

如果您安装了 IPython ,Scrapy终端将使用 IPython (替代标准Python终端)。 IPython 终端与其他相比更为强大,提供智能的自动补全,高亮输出,及其他特性。

二、启动终端

scrapy shell <url地址>

三、使用终端

response对象
response.body
  获取响应到二进制类型
response.text
  获取响应的文本
response.url
  获取响应的url
response.status
  获取响应的状态码
response的解析
response.xpath()
  使用xpath路径查询特定元素,返回一个selector对象
response.css()
  使用css_selector查询元素,返回一个selector对象
selector对象
extract()
  使用xpath请求到的对象是一个selector对象,需要进一步使用extract()方法拆包,转换为unicode字符串
extract_first()
  返回第一个解析到的值,如果列表为空,此种方法也不会报错,会返回一个空值
xpath()
  selector对象也支持xpath查询
css()
  selector对象也支持css语句查询
item对象
dict(item_obj)
可以使用dict方法直接将item对象转换成字典对象
item(dict_obj)
  也可以使用字典对象创建一个Item对象

转载于:https://www.cnblogs.com/huanggaoyu/p/10654922.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值