org.apache.nutch.net.URLFilter接口有如下实现类:
1、//匹配suffix, domain, host
org.apache.nutch.urlfilter.domain.DomainURLFilter
2、//程序代码结构实现同相同,不知道为什么一模一样,没仔细琢磨。
org.apache.nutch.urlfilter.domainblacklist.DomainBlacklistURLFilter
3、//解析URL是否符合./conf/nutch-default.xml的 "urlfilter.prefix.file"属性规则
org.apache.nutch.urlfilter.prefix.PrefixURLFilter
4、// 解析URL是否符合./conf/nutch-default.xml的 " suffix-urlfilter.txt "属性规则
org.apache.nutch.urlfilter.suffix.SuffixURLFilter
5、//正则解析验证URL是否书写规范的有效地址。
org.apache.nutch.urlfilter.validator.UrlValidator