Scrapy-Link Extractors（链接提取器）

最新推荐文章于 2024-10-24 16:42:43 发布

「已注销」

最新推荐文章于 2024-10-24 16:42:43 发布

阅读量1.8k

点赞数 3

文章标签： scrapy python 爬虫开发语言

全网优质文章转载收藏，均不代表本人立场！

本文链接：https://blog.csdn.net/lyshark_lyshark/article/details/125847289

版权

本文详细介绍了Scrapy中的LinkExtractor，它是用于从网页中提取跟随链接的工具。LinkExtractor提供了多种过滤选项，如allow和deny，可以根据正则表达式或域名进行筛选。文章还讨论了内置的LxmlLinkExtractor类，以及如何在Spider和CrawlSpider中使用它。此外，文章通过示例展示了如何使用CrawlSpider的Rule进行全站爬取，并提供了豆瓣图书Top250、腾讯招聘职位信息和校花网图片爬取的代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Link Extractors 中文文档：https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/link-extractors.html
Link Extractors 英文文档：http://doc.scrapy.org/en/latest/topics/link-extractors.html

利用爬虫Scrapy中的LinkExtractor(链接提取器)爬租房信息(全站爬虫)：https://www.jianshu.com/p/57c1e34c03cb
scrapy高级用法之自动分页：https://my.oschina.net/u/2351685/blog/612940?fromerr=QnjXr0Pi

python爬虫之Scrapy框架( CrawlSpider )：https://www.cnblogs.com/sui776265233/p/9724147.html

CrawlSpider使用分析(详解):https://blog.csdn.net/godot06/article/details/81672900

链接提取器

链接提取器 的目的就是从 网页(scrapy.http.Response 对象) 中，将最终 跟随(follow) 网页(即 scrapy.http.Response 对象) 的链接提取出来。简单的说：就是用于从服务器返回的 response 里抽取 url，用以进行之后的操作。

可以在 Scrapy 中直接使用 scrapy.linkextractors import LinkExtractor 提取链接，你也可以创建自己的自定义链接提取器，以满足您的需求通过实现一个简单的界面。

每个 link extractor(链接提取器)有唯一的公共方法是 extract_links， 它 接收一个Response对象 并返回一个 scrapy.link.Link对象列表。链接提取器要被实例化一次，但是它的 extract_links 方法可以被不同的网页(即 scrapy.http.Response 对象)调用好几次，用来提取不同网页中跟随的链接。

Link Extractors在 CrawlSpider 类( 在 Scrapy 可用 )中使用，通过一套规则，但你也可以用它在你的Spider中，即使你不是从 CrawlSpider 继承的子类，因为它的目的很简单：提取链接｡

内置链接提取器参考

Scrapy 提供的 Link Extractor 类在 scrapy.linkextractors 模块提供｡默认的 link extractor 是 LinkExtractor , 其实就是 LxmlLinkExtractor:

from scrapy.linkextractors import LinkExtractor

以前的 Scrapy 版本中曾经有过其他链接提取器类，但现在已经过时了。

LxmlLinkExtractor

class scrapy.linkextractors.lxmlhtml.LxmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), deny_extensions=None, restrict_xpaths=(), restrict_css=(), tags=('a', 'area'), attrs=('href', ), canonicalize=False, unique=True, process_value=None, strip=True)

LxmlLinkExtractor 是推荐的链接提取器与方便的过滤选项。它使用 lxml 的强大的 HTMLParser 实现。

参数解释：

allow( 正则表达式或正则表达式列表 )：一个单一的正则表达式(或正则表达式列表)，(绝对)urls 必须匹配才能提取。如果没有给出(或为空)，它将匹配所有链接。
deny( 正则表达式或正则表达式列表 )：一个正则表达式(或正则表达式列表)，(绝对)urls必须匹配才能排除(即不提取)。它优先于 allow 参数。如果没有给出(或为空)，它不会排除任何链接。，可以和 allow 配合一起用，前后夹击，参数和 allow 一样。
allow_domains( str 或 str 的 list )：允许的域名或者域名列表。即会被提取的链接的 domains。其实这个和 spider 类里的 allowdomains 是一个作用，即抓取哪个域名下的网站。
deny_domains(str 或 str 的 list )：拒绝的域名或者域名列表。即不会被提取链接的 domains。和 allowdomains 相反，即拒绝哪个域名下的网站。
deny_extensions( list )：包含在提取链接时应该忽略的扩展的单个值或字符串列表。即不允许的扩展名。如果没有给出(默认是 None)，它将默认为 IGNORED_EXTENSIONS 在 scrapy.linkextractors 包中定义的列表。(参考： http://www.xuebuyuan.com/296698.html)
restrict_xpaths( str 或 list )：一个XPath(或XPath的列表)，它定义了从Response哪些区域中来提取链接。即在网页哪个区域里提取链接，可以用 xpath 表达式和 css 表达式这个功能是划定提取链接的位置，让提取更加精准。如果给出，只有那些XPath选择的文本将被扫描链接。参见下面的例子。即使用 xpath表达式，和allow共同作用过滤链接。
restrict_css( str 或 list )：一个CSS选择器(或选择器列表)，用于定义响应中应提取链接的区域。同 restrict_xpaths。
tags( str 或 list )：提取链接时要考虑的标签或标签列表。默认为('a', 'area')。即默认提取a标签和area标签中的链接
attrs( list )：在查找要提取的链接时应该考虑的属性或属性列表(仅适用于参数中指定的那些标签tags )。默认为('href',)。即默认提取 tags 里的 href 属性，也就是 url 链接。
canonicalize( boolean )：规范化每个提取的url(使用 w3lib.url.canonicalize_url)。默认为True。 canonicalize each extracted url (using w3lib.url.canonicalize_url). Defaults to False. Note that canonicalize_url is meant for duplicate checking; it can change the URL visible at server side, so the response can be different for requests with canonicalized and raw URLs. If you’re using LinkExtractor to follow links it is more robust to keep the default canonicalize=False.
unique( boolean )：是否对提取的链接进行过滤。即这个地址是否要唯一，默认true，重复收集相同的地址没有意义。
process_value ( callable ) – 它接收来自扫描标签和属性提取每个值，可以修改该值，并返回一个新的，或返回 None 完全忽略链接的功能。如果没有给出，process_value 默认是 lambda x: x。其实

最低0.47元/天解锁文章