LinkExtractor 构造器各参数说明

LinkExtractor 构造器各参数说明

  • 特例:
    • LinkExtractor构造器的所有参数都有默认值
  • 各参数说明:
    • allow
      • 接收一个正则表达式或一个正则表达式列表,提取绝对url与正则表达式匹配的链接,如果该参数为空(默认),就提取全部链接
    • deny
      • 接收一个正则表达式或一个正则表达式列表,与allow相反,排除绝对url与正则表达式匹配的链接。
    • allow_domains
      • 接收一个域名或一个域名列表,提取到指定域的链接。
    • deny_domains
      • 接收一个域名或一个域名列表,与allow_domains相反,排除到指定域的链接。
    • restrict_xpaths
      • 接收一个XPath表达式或一个XPath表达式列表,提取XPath表达式选中区域下的链接。
    • restrict_css
      • 接收一个CSS选择器或一个CSS选择器列表,提取CSS选择器选中区域下的链接。
    • tags
      • 接收一个标签(字符串)或一个标签列表,提取指定标签内的链接,默认为[‘a’,‘area’]。
    • attrs
      • 接收一个属性(字符串)或一个属性列表,提取指定属性内的链接,默认为[‘href’]。
    • process_vlaue
      • 接收一个形如func(value)的回调函数。如果传递了该参数,LinkExtractor将调用该回调函数对提取的每一个链接(如a的href)进行处理,回调函数正常情况下应返回一个字符串(处理结果),想要抛弃所处理的链接时,返回None。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值