关于在scrapy中使用xpath

1. 还是以虎嗅为例,他给我返回的是一个json格式的json串

  

2.那么我需要操作的就是把json串转换成我们的字典格式再进行操作

  

str=json.loads(response.body)['data']  #这边是拿到响应体数据,然后进行序列化成字典,拿到字典中key为data的的值.是一个字符串

 

3.自己导入选择器

from scrapy.selector import Selector

 

4.使用Selector的xpath方法获取内容

result = Selector(text=你从json提取出来的str).xpath('你的xpath表达式').extract()

 

5.使用效果

  我把上一篇虎嗅的在parse中修改了来示范一下

 #处理数据
    def parse(self, response):
        str=json.loads(response.body)['data']
        result = Selector(text=str).xpath('//div[@class="mod-b mod-art"]/div[3]/h2/a/text()').extract()
        print('result===',result)
        #这边处理比较难以理解,要多看看

 

5.文档

  当输入 response.selector 时, 您将获取到一个可以用于查询返回数据的selector(选择器), 
以及映射到 response.selector.xpath() 、 response.selector.css() 的
快捷方法(shortcut): response.xpath() 和 response.css() 。

  

转载于:https://www.cnblogs.com/tjp40922/p/10617694.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值