hadoop2.3.0 Windows (nutch)爬虫使用

百度云盘下载(解压安装):链接:https://pan.baidu.com/s/1dFTpMhj 密码:jp1g

百度云盘下载(源码):链接:https://pan.baidu.com/s/1ht81j7Y 密码:5yaa

官网下载:http://archive.apache.org/dist/hadoop/core/hadoop-2.3.0/

安装需要配置HADOOP_HOME

如果运行nutch出现

InjectorJob: starting at 2018-01-22 16:29:38
InjectorJob: Injecting urlDir: urls
InjectorJob: Using class org.apache.gora.mongodb.store.MongoStore as the Gora storage class.
InjectorJob: java.lang.NullPointerException
at java.lang.ProcessBuilder.start(Unknown Source)
at org.apache.hadoop.util.Shell.runCommand(Shell.java:482)
at org.apache.hadoop.util.Shell.run(Shell.java:455)
at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:702)
at org.apache.hadoop.util.Shell.execCommand(Shell.java:791)
at org.apache.hadoop.util.Shell.execCommand(Shell.java:774)
at org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:646)
at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:434)
at org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:281)
at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:125)
at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:348)
at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1285)
at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1282)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Unknown Source)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1614)
at org.apache.hadoop.mapreduce.Job.submit(Job.java:1282)
at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:1303)
at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:115)
at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:231)
at org.apache.nutch.crawl.InjectorJob.inject(InjectorJob.java:252)
at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:276)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
at org.apache.nutch.dispatch.JobManager.run(JobManager.java:22)
at org.apache.nutch.dispatch.JobManager.main(JobManager.java:50)

下载以下文件:


(不要问我为什么加这些文件)

下载地址:链接:https://pan.baidu.com/s/1i6UJLNB 密码:7d9j

将下载的文件加入到hadoop\bin路径下

如果还是出错,那么就是路径出错了,nutch内部引用hadoop不对,请尝试将hadoop-2.3.0改成hadoop-2.3




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Windows使用Hadoop,首先需要进行以下几个步骤: 1. 下载并安装Winutils:首先需要下载Winutils,它是在Windows上运行Hadoop所需的软件。你可以在网络上找到相应的Winutils版本,并将其下载到本地。 2. 设置环境变量:接下来,你需要设置Hadoop的环境变量。打开Hadoop安装目录中的`etc\hadoop`文件夹,使用记事本打开`hadoop-env.cmd`文件。在文件中找到`set JAVA_HOME=`这一行,并将其修改为你系统中Java安装的路径。 3. 配置Hadoop文件:继续在`etc\hadoop`文件夹中打开`core-site.xml`、`hdfs-site.xml`和`mapred-site.xml`文件,可以使用记事本进行编辑。这些文件包含了Hadoop的配置信息,你可以根据需要进行修改。 4. 启动Hadoop:在完成上述步骤后,你可以启动Hadoop。打开命令行窗口,进入Hadoop的安装目录,执行以下命令来启动Hadoop:`./sbin/start-all.cmd`。 需要注意的是,以上步骤是基于在Windows上安装的Hadoop版本为3.1.3进行的。如果你使用不同版本的Hadoop,则一些步骤可能会有所不同。另外,为了更好地使用Hadoop,你还可以进一步学习Hadoop的基本概念和使用方法。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [windowsHadoop的安装和使用](https://blog.csdn.net/qq_68383591/article/details/129725983)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Hi竹子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值