org.apache.nutch.net.URLFilter接口有如下实现类:
- 1、//匹配suffix, domain, host
- org.apache.nutch.urlfilter.domain.DomainURLFilter
- 2、//程序代码结构实现同相同,不知道为什么一模一样,没仔细琢磨。
- org.apache.nutch.urlfilter.domainblacklist.DomainBlacklistURLFilter
- 3、//解析URL是否符合./conf/nutch-default.xml的 "urlfilter.prefix.file"属性规则
- org.apache.nutch.urlfilter.prefix.PrefixURLFilter
- 4、// 解析URL是否符合./conf/nutch-default.xml的 " suffix-urlfilter.txt "属性规则
- org.apache.nutch.urlfilter.suffix.SuffixURLFilter
- 5、//正则解析验证URL是否书写规范的有效地址。
- org.apache.nutch.urlfilter.validator.UrlValidator