- org.apache.nutch.net.URLNormalizers
url过滤封装类,过滤器有3个实现类分别是:
- //格式化url将url字符小写转换一次,Perl5正则解析URL FILE。
- org.apache.nutch.net.urlnormalizer.basic.BasicURLNormalizer
- //空方法,不执行任何解析,直接返回url,注:应该是预留接口
- org.apache.nutch.net.urlnormalizer.pass.PassURLNormalizer
- //根据配置文件regex-urlfilter.txt中的网站爬取规则过滤URL,不符合规则的网站不予爬取
- org.apache.nutch.net.urlnormalizer.regex.RegexURLNormalizer
插件包如下:
urlnormalizer-basic.jar
urlnormalizer-pass.jar
urlnormalizer-regex.jar
三个插件包