nutch on hadoop 遇到 ls: 无法访问data/segments: 没有那个文件或目录

最新推荐文章于 2024-02-26 16:55:17 发布

kradnangel

最新推荐文章于 2024-02-26 16:55:17 发布

阅读量3.8k

点赞数

分类专栏： nutch Hadoop 文章标签： Hadoop nutch

本文链接：https://blog.csdn.net/kradnangel/article/details/23252425

版权

在部署Nutch于Hadoop上时遇到错误，Generator阶段后显示无法访问data/segments目录。通过检查Nutch的crawl脚本，发现命令行调用有误，原本使用的是`bin/crawl`，而应使用`./crawl`以确保脚本能正确检测到.nutch.job文件。修正命令后，Nutch在Hadoop上成功运行。

摘要由CSDN通过智能技术生成

将nutch部署在hadoop上运行

bin/crawl hdfs://localhost:9000/user/hadoop/urls data http://localhost:8983/solr/ 1

在generator完成之后，提示：

ls: 无法访问data/segments/: 没有那个文件或目录
Operating on segment : 
Fetching :

打开HDFS查看，发现明明有这个目录存在。

百思不得其解

在各种百度，google无解之后，想到了查看nutch的源码。

查看了一下crawl脚本的文件内容：

# determines whether mode based on presence of job file

mode=local
if [ -f ../*nutch-*.job ]; then
    mode=distributed
fi

......

  if [ $mode = "local" ]; then
   SEGMENT=`ls $CRAWL_PATH/segments/ | sort -n | tail -n 1`
  else
   SEGMENT=`hadoop fs -ls $CRAWL_PATH/segments/ | grep segments |  sed -e "s/\//\\n/g" | egrep 20[0-9]+ | sort -n | tail -n 1`