nutch 在hadoop环境下过滤抓取url的设置

摘要: 有个网站有问题,导致nutch 抓取超过24小时,故修改 master主机的nutch conf下regex-urlfiter.txt,发现没有效果。nutch在Hadoop环境下运行,master 和 slave 主机 都要读取regex-urlfilter.txt, 这个文件应该放在哪儿?
分析:nutch在单机和hadoop环境下运行不一样, nutch目录下有一个runtime子目录,该子目录下有 local和deploy两个文件夹,local是本地运行的文件,deploy是分布式运行的文件,分布运行的conf文件应该打包到deyloy的apache-nutch-XX.job


中。所以,一旦要修改 nutch/conf中文件内容, 修改完后,需要ant一下,重新生成deyloy的apache-nutch-XX.job即可
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值