第六章 使用LinkExtractor 提取链接

使用LinkExtractor 提取链接

提取链接的两种方法:

  • Selector
  • LinkExtractor

之前的代码是使用的Selector,这里就不再做介绍了,开始LinkExtractor的学习

1.使用LinkExtractor

from scrapy.linkextractors import LinkExtractor
# 提取链接
            # 下一页的url在 ul.pager > li.next > a 里面
            # next_url = response.css('ul.pager li.next a::attr(href)').extract_first()
            # if next_url:
            #     # 如果找到下一页的url,得到绝对路径,构造新的Response对象
            #     next_url = response.urljoin(next_url)
            #     yield scrapy.Request(next_url, callback=self.parse)
            le = LinkExtractor(restrict_css='ul.pager li.next')
            links = le.extract_links(response)
            if links:
                next_url = links[0].url
                yield scrapy.Request(next_url,callback=self.parse)
  1. 描述提取规则

LinkExtractor构造器参数:

    • 0
      点赞
    • 5
      收藏
      觉得还不错? 一键收藏
    • 1
      评论
    评论 1
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值