nutch2.2.1 URLNormalizers 详解

Java代码   收藏代码
  1. org.apache.nutch.net.URLNormalizers   

 

url过滤封装类,过滤器有3个实现类分别是:

 

Java代码   收藏代码
  1. //格式化url将url字符小写转换一次,Perl5正则解析URL FILE。  
  2. org.apache.nutch.net.urlnormalizer.basic.BasicURLNormalizer  
  3. //空方法,不执行任何解析,直接返回url,注:应该是预留接口  
  4. org.apache.nutch.net.urlnormalizer.pass.PassURLNormalizer  
  5. //根据配置文件regex-urlfilter.txt中的网站爬取规则过滤URL,不符合规则的网站不予爬取  
  6. org.apache.nutch.net.urlnormalizer.regex.RegexURLNormalizer  

 

 插件包如下:

urlnormalizer-basic.jar

urlnormalizer-pass.jar

urlnormalizer-regex.jar

三个插件包

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值