Python爬虫笔记(十三)——Scrapy官方文档阅读——Link Extractors

Link extractors用于从网页中抓取链接

 

使用link extractors

引入包:

from scrapy.linkextractors import LinkExtractor

LxmlLinkExtractor

LxmlLinkExtractor是推荐的具有方便过滤选项的链接提取器

__init__函数的参数:

  • allow(正则表达式):提取的url必须满足的规则,可选参数
  • deny(正则表达式):提取的url都不满则的规则,可选参数
  • allow_domains(string或是string的list):提取的url的域名必须是指定域名,可选参数
  • deny_domains(string或是string的list):含有该指定值的url会被忽略,可选参数
  • restrict_xpath(string或是string的list):通过xpath提取response的一部分,从这一部分提取链接,可选参数(相当于缩小匹配范围)
  • restrict_css(string或是string的list):通过css选择器提取response的一部分,从这一部分提取链接,可选参数(相当于缩小匹配范围)
  • tags(string或是string的list):考虑提取链接的html标签,默认情况下是(‘a’,‘area’)
  • attrs(list):提取链接时需要注意的html标签的属性,默认是(‘href’,)
  • canonicalize(boolean):规范化url,最好使用默认值False
  • unique(boolean):提取url时,是否要保证url不重复
  • process_value(callable):一个函数,它接收从标签和属性中提取的每个值,并且可以修改这个值并返回一个新的值,或者返回None以完全忽略链接。如果没有指定,process_value默认为lambda x: x
  • strip(boolean):是否去除提取的url中的空格,默认为true

 

具体的使用例子文档也没有给出,以后在补上
 

setting部分不打算在整理了,在需要的时候可以查看:https://doc.scrapy.org/en/latest/topics/settings.html

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值