9个步骤,手把手教你在Windows上安装Hadoop

在Windows上安装Hadoop时经常会出现许多错误,很多用户使用基于Linux的操作系统。本文详细讲述如何在Windows上安装和运行Apache Hadoop,如果遇到了问题,可以参考文章中的步骤进行解决。

微信搜索关注《Java学研大本营》

在 Microsoft Windows 上运行 Apache Hadoop 是比较繁琐的任务,在安装过程中会出现许多错误,最终,大多数用户放弃了通过 Windows 使用 Hadoop,并转而使用基于 Linux 的操作系统。

本文讲述了有关如何在Windows上无误安装和运行Apache Hadoop所有组件的各个方面。请先为以下先决条件准备好PC/笔记本电脑:

图片

1. Java开发工具包

Apache Hadoop 与最新版本的JDK不兼容。建议下载Java SE Development Kit版本15.0.x(可能需要注册Oracle帐户)。

安装链接:https://www.oracle.com/java/technologies/javase/jdk15-archive-downloads.html

2. 设置环境路径

(仅在未安装Java或从未设置Java路径时才执行此步骤)。

进入设置 -> 搜索 "环境变量" -> 选择 "编辑系统变量 "选项。出现以下对话框:

图片

单击“环境变量…”按钮。出现以下窗口:

图片

选择新按钮并在变量名称中键入“JAVA_HOME”,将值设置为Java SDK的bin文件夹的路径(通常为类型:C:\Program Files\Java\jdk-15.0.1\bin)。对于用户和系统变量都执行此步骤。

图片

从用户变量中选择路径选项(稍后同样适用于系统变量)。单击“编辑”并通过单击“新建”按钮(从右侧)添加Java bin路径。对于用户和系统变量都执行此步骤。

图片

现在,通过满足先决条件,已准备好在Windows上安装Apache Hadoop。

从以下链接中下载tar.gz文件(注意-最可能需要下载的是底部的第三个文件)。

安装链接:https://downloads.apache.org/hadoop/common/hadoop-3.3.4/

确保将Hadoop文件夹提取到C:驱动器中(而不是任何文件夹或其他驱动器中)

提取后,请确保hadoop-3.3.4(文件夹名称)对用户具有写入权限。

下面我们进入安装步骤的关键部分,设置Hadoop的配置,请仔细遵循这些步骤。我们需要更改以下文件:

  1. 编辑文件C:\ Hadoop-3.3.4 \ etc \ hadoop \ core-site.xml,编辑xml代码并保存:

<configuration> 
<property> 
<name>fs.defaultFS</name> 
<value>hdfs://localhost:9000</value> 
</property> 
</configuration>

注意:如果端口正在使用,则可能需要更改端口(此处为9000)。

  1. 编辑文件C:\Hadoop-3.3.4\etc\hadoop\mapred-site.xml,编辑xml代码并保存:

<configuration> 
<property> 
<name>mapreduce.framework.name</name> 
<value>yarn</value> 
</property> 
</configuration>

3. 编辑文件

编辑C:\Hadoop-3.3.4\etc\hadoop\hdfs-site.xml,编辑xml代码并保存:

<configuration> 
<property> 
<name>dfs.replication</name> 
<value>1</value> 
</property> 
<property> 
<name>dfs.namenode.name.dir</name> 
<value>/hadoop-3.3.4/data/namenode</value> 
</property> 
<property> 
<name>dfs.datanode.data.dir</name> 
<value>/hadoop-3.3.4/data/datanode</value> 
</property> 
</configuration>

4. 创建目录

创建以下目录

a. 在“C:\ hadoop-3.3.4 \”下创建文件夹“data”

b. 在“C:\ hadoop-3.3.4 \ data \”下创建文件夹“datanode”

c. 在“C:\ hadoopo-3.3.4 \ data \”下创建文件夹“namenode”

5. 编辑文件

编辑文件C:\ Hadoop-3.3.4 \ etc \ hadoop \ yarn-site.xml,编辑xml代码并保存:

<configuration> 
<property> 
<name>yarn.nodemanager.aux-services</name> 
<value>mapreduce_shuffle</value> 
</property> 
<property> 
<name>yarn.nodemanager.auservices.mapreduce.shuffle.class</name> 
<value>org.apache.hadoop.mapred.ShuffleHandler</value> 
</property> 
</configuration>

6. 编辑文件

编辑文件C:\Hadoop-3.3.4\etc\hadoop\hadoop-env.cmd,编辑以下行:

“JAVA_HOME=C:\\Progra~1\Java\jdk-15.0.1\bin” instead of set “JAVA_HOME=C:\Java” 

注意:可以使用JAVA_HOME变量,但由于路径地址(Program Files)中存在空格,会引发错误。

到这一步已经完成了编辑配置的工作。现在,我们将在cmd中执行命令以运行Hadoop。

从下面链接中的bin文件夹中粘贴文件到Hadoop bin文件夹中,注意不要替换整个bin文件夹,复制文件并仅替换选定的文件。确保bin文件夹总共有22个项目。这一步很关键,因为现有的bin文件夹具有不完整的文件集,这些文件集是运行资源管理器所需的。

安装链接:https://drive.google.com/drive/folders/1fDbblP61sUKmDqvQ8pfU98nMt_we4b5J?usp=share_link

7. 为Hadoop设置环境和路径变量

进入设置->打开环境变量->在用户变量中添加新变量:

图片

变量名称:HADOOP_HOME,值:C:\ hadoop-3.3.4 \ bin(到hadoop bin文件夹的路径)。

进入用户变量中的路径,点击编辑,添加新路径:

图片

路径值与上面相同(到Hadoop bin文件夹的路径)。

将以下路径值添加到系统变量中:

C:\ hadoop-3.3.4 \ bin

C:\ hadoop-3.3.4 \ sbin

图片

以“管理员身份运行”打开cmd(或powershell),并使用cd命令导航到Hadoop的bin目录:

cd C:\hadoop-3.3.4\bin\

8. 格式化目录

使用相同的cmd(powershell)命令格式化“namenode”目录;

hdfs namenode -format

9. 启动组件

要启动Hadoop组件,将当前目录改为sbin文件夹:

cd C:\hadoop-3.3.4\sbin\

并运行“start-all.cmd”可执行文件。可以通过在文件资源管理器中导航到sbin目录中的start-all.cmd并选择“以管理员身份运行”来执行此操作。

注意:如果通过执行第8步,无法查看yarn终端(cmd),请从同一目录中以管理员身份打开“start-yarn.cmd”。

现在就能看到四个终端(cmd)同时运行。

图片

确保所有四个组件都在运行,这些组件是:

a. hadoop namenode

b. hadoop datanode

c. yarn resourcemanager

d. yarn nodemanager

注意:可以使用终端中的“jps”命令进行验证。如果任何一个(或多个)进程“关闭”,请检查上一部分中的Hadoop配置步骤。

在成功运行组件后,可以通过在Web浏览器中打开http://localhost:8088来访问Hadoop默认创建的群集。

图片

上图显示了具有值1的活动节点的突出显示字段,表示已创建一个节点并正在运行。

单击左侧栏上的“节点”以查看所创建节点的详细信息。

图片

要检查namenode的状态,请在Web浏览器中打开http://localhost:9870。可以通过顶部导航栏下的“实用程序”部分在GUI下访问HDFS。

图片

注意:图中显示 "localhost:9001",因为端口号9000已经被我的电脑使用了。我已经在Hadoop配置步骤中改变了它。(在core-site.xml文件中)。

恭喜,已成功在PC上安装了Apache Hadoop。现在,可以从本地计算机执行map reduce任务,开始探索Hadoop Map Reduce的功能吧。

推荐书单

《Hadoop大数据分析实战》

本书详细阐述了与Hadoop 3大数据分析相关的基本解决方案,主要包括Hadoop简介、大数据分析概述、基于MapReduce的大数据处理、Python-Hadoop科学计算和大数据分析、R-Hadoop统计数据计算、Apache Spark批处理分析、Apache Spark实时数据分析、Apache Flink批处理分析、Apache Flink流式处 理、大数据可视化技术、云计算简介、使用亚马Web服务等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。

本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学教材和参考手册。

《Hadoop大数据分析实战》([美],斯里达尔·奥拉)【摘要 书评 试读】- 京东图书京东JD.COM图书频道为您提供《Hadoop大数据分析实战》在线选购,本书作者:,出版社:清华大学出版社。买图书,到京东。网购图书,享受最低优惠折扣!icon-default.png?t=N6B9https://item.jd.com/12613682.html

图片

精彩回顾

一文讲清RabbitMQ、Apache Kafka、ActiveMQ

一文讲清数据集市、数据湖、数据网格、数据编织

分布式计算哪家强:Spark、Dask、Ray大比拼

使用FPGA制作低延时高性能的深度学习处理器

ChatGPT是如何运行起来的?(下)

微信搜索关注《Java学研大本营》

访问【IT今日热榜】,发现每日技术热点

  • 16
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
以下是在MacBook上安装Hadoop步骤步骤1:安装Java Hadoop是用Java编写的,因此要在MacBook上安装Java。您可以通过以下命令检查是否已安装Java: java -version 如果Java未安装,则可以从Oracle官方网站下载并安装Java。 步骤2:下载Hadoop 您可以从Apache Hadoop官方网站下载Hadoop的最新版本。或者,您可以使用以下命令从终端下载Hadoop: curl -O http://apache.mirrors.lucidnetworks.net/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz 步骤3:解压Hadoop 使用以下命令解压Hadoop: tar -zxvf hadoop-3.3.0.tar.gz 步骤4:配置Hadoop 在解压缩的Hadoop目录中,找到conf文件夹。在此文件夹中,找到以下文件: - core-site.xml - hdfs-site.xml - mapred-site.xml - yarn-site.xml 在这些文件中,按照以下方式进行配置: core-site.xml: <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> hdfs-site.xml: <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/Users/<your-username>/hadoop/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/Users/<your-username>/hadoop/hdfs/datanode</value> </property> </configuration> mapred-site.xml: <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> yarn-site.xml: <configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration> 步骤5:启动Hadoop 使用以下命令启动Hadoop: ./sbin/start-all.sh 您可以使用以下命令检查Hadoop是否正在运行: jps 步骤6:测试Hadoop 在终端中,使用以下命令创建一个名为input的文件夹: hadoop fs -mkdir /input 在input文件夹中,创建一个名为input.txt的文件,并将以下内容复制到文件中: Hello Hadoop Hello Big Data 使用以下命令将input.txt文件上传到Hadoophadoop fs -put input.txt /input 使用以下命令运行Hadoop的WordCount示例: hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar wordcount /input /output 使用以下命令从Hadoop中检索输出: hadoop fs -cat /output/part-r-00000 您应该看到以下输出: Big 1 Data 1 Hadoop 1 Hello 2 恭喜您已成功在MacBook上安装和运行Hadoop

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值