Scrapy数据的提取

为了在parse函数中,对response进行操作,下面列举了常用的response属性

  • response.url:当前响应的url地址

  • response.request.url:当前响应对应的请求的url地址

  • response.headers:响应头

  • response.request.headers:当前响应的请求头

  • response.body:响应体,也就是html代码,byte类型

  • response.status:响应状态码

  • response.xpath方法的返回结果是一个类似list的类型,其中包含的是selector对象,操作和列表一样,但是有一些额外的方法
    额外方法extract():返回一个包含有字符串的列表
    额外方法extract_first():返回列表中的第一个字符串,列表为空没有返回None

总结

  • parse函数就是Scrapy在得到HTTP(s)响应之后回调的函数
  • parse函数中默认的参数就是将响应数据封装为字典的对象,这个对象可以直接使用xpath进行数据的提取,使得在处理非结构化数据(一般指html文件)时非常方便
  • 提取数据后传给管道对提取到的数据进一步操作
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值