第六章使用LinkExtractor 提取链接

三丁目の夕阳下的白菜

于 2018-01-18 09:11:38 发布

阅读量5.9k

点赞数

文章标签： scrapy 爬虫 python

本文链接：https://blog.csdn.net/keenshinsword/article/details/79091859

版权

使用LinkExtractor 提取链接

提取链接的两种方法：

Selector
LinkExtractor

之前的代码是使用的Selector，这里就不再做介绍了，开始LinkExtractor的学习

１．使用LinkExtractor

from scrapy.linkextractors import LinkExtractor
# 提取链接
            # 下一页的url在 ul.pager > li.next > a 里面
            # next_url = response.css('ul.pager li.next a::attr(href)').extract_first()
            # if next_url:
            #     # 如果找到下一页的url,得到绝对路径,构造新的Response对象
            #     next_url = response.urljoin(next_url)
            #     yield scrapy.Request(next_url, callback=self.parse)
            le = LinkExtractor(restrict_css='ul.pager li.next')
            links = le.extract_links(response)
            if links:
                next_url = links[0].url
                yield scrapy.Request(next_url,callback=self.parse)

描述提取规则

LinkExtractor构造器参数：

最低0.47元/天解锁文章

三丁目の夕阳下的白菜

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
第六章使用LinkExtractor 提取链接

使用LinkExtractor 提取链接提取链接的两种方法：SelectorLinkExtractor之前的代码是使用的Selector，这里就不再做介绍了，开始LinkExtractor的学习１．使用LinkExtractorfrom scrapy.linkextractors import LinkExtractor# 提取链接 # 下一页的
复制链接

扫一扫