scrapy获取分页的链接数量不完整

  • 背景:scrapy抓取翻页链接的时候。如果有20页,则需要自动获取每一页的网址,然后回调给解析函数去处理

  • 情况:只获取到第二页的url,后面所有的网页链接都没输出,且写入数据库或者保存文件,只有第一页的数据

  • 概述:要知道xpath用extract抓取的网页链接是列表格式,比如['http://www.baidu.com/'],这个时候,你直接回调 ,并且打印下一页的网址,就会发现只有一个。且数据只有第一页的。

如果用extract_first提取的,则是字符串。如果url不完整则可以直接拼接,无需再进行转换了。

  • 解决方案:直接在抓取到的网页链接后加入[0],提取出来列表里面的网页url。

  • 下面是具体获取下一页url的代码例子:

next_page=response.xpath(".//section[@class='pagination-wrap']/div/a[2]/@href").extract()
if next_page:
    print(next_page[0])
    yield scrapy.Request(next_page[0], callback=self.parse)
else:
    pass
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值