摘要: 有个网站有问题,导致nutch 抓取超过24小时,故修改 master主机的nutch conf下regex-urlfiter.txt,发现没有效果。nutch在Hadoop环境下运行,master 和 slave 主机 都要读取regex-urlfilter.txt, 这个文件应该放在哪儿?
分析:nutch在单机和hadoop环境下运行不一样, nutch目录下有一个runtime子目录,该子目录下有 local和deploy两个文件夹,local是本地运行的文件,deploy是分布式运行的文件,分布运行的conf文件应该打包到deyloy的apache-nutch-XX.job
中。所以,一旦要修改 nutch/conf中文件内容, 修改完后,需要ant一下,重新生成deyloy的apache-nutch-XX.job即可
分析:nutch在单机和hadoop环境下运行不一样, nutch目录下有一个runtime子目录,该子目录下有 local和deploy两个文件夹,local是本地运行的文件,deploy是分布式运行的文件,分布运行的conf文件应该打包到deyloy的apache-nutch-XX.job
中。所以,一旦要修改 nutch/conf中文件内容, 修改完后,需要ant一下,重新生成deyloy的apache-nutch-XX.job即可