nutch on hadoop 遇到 ls: 无法访问data/segments: 没有那个文件或目录

在部署Nutch于Hadoop上时遇到错误,Generator阶段后显示无法访问data/segments目录。通过检查Nutch的crawl脚本,发现命令行调用有误,原本使用的是`bin/crawl`,而应使用`./crawl`以确保脚本能正确检测到.nutch.job文件。修正命令后,Nutch在Hadoop上成功运行。
摘要由CSDN通过智能技术生成

将nutch部署在hadoop上运行


bin/crawl hdfs://localhost:9000/user/hadoop/urls data http://localhost:8983/solr/ 1


在generator完成之后,提示:


ls: 无法访问data/segments/: 没有那个文件或目录
Operating on segment : 
Fetching : 

打开HDFS查看,发现明明有这个目录存在。

百思不得其解

在各种百度,google无解之后,想到了查看nutch的源码。

查看了一下crawl脚本的文件内容:

# determines whether mode based on presence of job file

mode=local
if [ -f ../*nutch-*.job ]; then
    mode=distributed
fi

......

  if [ $mode = "local" ]; then
   SEGMENT=`ls $CRAWL_PATH/segments/ | sort -n | tail -n 1`
  else
   SEGMENT=`hadoop fs -ls $CRAWL_PATH/segments/ | grep segments |  sed -e "s/\//\\n/g" | egrep 20[0-9]+ | sort -n | tail -n 1`
 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值