nutch1.4 URLNormalizers 详解

 

org.apache.nutch.net.URLNormalizers 

 

url过滤封装类,过滤器有3个实现类分别是:

 

//格式化url将url字符小写转换一次,Perl5正则解析URL FILE。
org.apache.nutch.net.urlnormalizer.basic.BasicURLNormalizer
//空方法,不执行任何解析,直接返回url,注:应该是预留接口
org.apache.nutch.net.urlnormalizer.pass.PassURLNormalizer
//根据配置文件regex-urlfilter.txt中的网站爬取规则过滤URL,不符合规则的网站不予爬取
org.apache.nutch.net.urlnormalizer.regex.RegexURLNormalizer

 

 插件包如下:

urlnormalizer-basic.jar

urlnormalizer-pass.jar

urlnormalizer-regex.jar

三个插件包

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值