conf中的配置文件分为两类:
一类是像nutch-default.xml这样的属于引导的核心的配置文件,这类配置文件直接configuration配置类使用,他的作用是引导nutch的job按照开发者的规定执行。这类配置文件包括nutch-default.xml,nutch-site.xml,core-default.xml,core-site.xml等。
另一类像regex-urlfilter.txt这样的配置文件,他们负责具体的nutch功能实现(如regex-urlfilter.xml负责配置过滤url的正则表达式,给UrlFilter类使用),他们不被configuration直接使用,而是在configuration使用的配置文件中进行说明引用,当nutch某个模块需要某个配置文件时,会通过configuration获得这个配置文件名称,然后通过configuration获得这个文件的一个输入流,然后读取配置文件的数据,就可以使用这个配置文件了。