Windows下配置Hadoop及Spark环境

前言

教程所用各版本说明

一 JDK环境配置

由于项目用的JDK17,所以单独给Hadoop配了JDK11,建议直接配置JAVA_HOME环境变量为JDK11,因为后面Spark需要用到JAVA_HOME

下载JDK11

链接:https://www.oracle.com/java/technologies/javase/jdk11-archive-downloads.html

目前Hadoop和Spark兼容JDK11JDK8

单独修改Hadoop的话,需要在Hadoop目录下的etc\hadoop\文件夹中hadoop-env.cmd中添加一行
set JAVA_HOME=E:\Environment\jdk-11.0.13(此处填写你的JDK路径)

注:JDK、Hadoop以及Spark的文件路径中不能出现空格和中文,类似于Program Files这样的文件夹名是不被允许的

二 Hadoop配置

1 下载Hadoop

镜像链接:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/core/hadoop-3.3.2/

选择hadoop-3.3.2.tar.gz

下载winutils.exe和hadoop.dll,Windows安装Hadoop需要这部分文件

链接:https://github.com/cdarlint/winutils

找到对应的版本对应bin目录中的文件,放入Hadoop下的bin 文件夹中

2 配置Hadoop环境变量

把Hadoop目录添加到系统变量HADOOP_HOME,并在系统变量Path中添加%HADOOP_HOME%\bin

image-20220328230657843

cmd输入

hadoop version

n测试是否正常显示版本信息

image-20220328230909952

3 配置hadoop

打开Hadoop所在目录下etc\hadoop的文件夹

修改core-site.xml

先在Hadoop目录下创建data文件夹,配置文件中路径前需加"/"。HDFS可使用localhost,如果在hosts文件已经配置了主机映射,也可以直接填主机名

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/E:/Environment/hadoop-3.3.2/data/tmp</value> //注意前面部分路径修改为自己的
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

修改hdfs-site.xml

<configuration>
    <!-- 这个参数设置为1,因为是单机版hadoop -->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/E:/Environment/hadoop-3.3.2/data/namenode</value> //注意前面部分路径修改为自己的
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/E:/Environment/hadoop-3.3.2/data/datanode</value> //注意前面部分路径修改为自己的
    </property>
</configuration>

修改mapred-site.xml

<configuration>
    <property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
    </property>
    <property>
       <name>mapred.job.tracker</name>
       <value>hdfs://localhost:9001</value>
    </property>
</configuration>

修改yarn-site.xml

<configuration>
	 <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
	<property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hahoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

4 节点格式化

打开cmd输入

hdfs namenode -format

出现类似下图说明成功。如果出错,可能原因有如:环境变量配置错误如路径出现空格,或者winutils版本不对或hadoop版本过高等,或hadoop的etc下文件配置有误

image-20220327232338172

5 启动Hadoop

然后cmd切换到Hadoop下的sbin目录,输入

start-all.cmd

然后回车,此时会弹出4个cmd窗口,分别是NameNode、ResourceManager、NodeManager、DataNode。检查4个窗口有没有报错。在CMD执行jps看到这4个进程,启动成功

浏览器输入localhost:9870即进入访问HDFS的Web UI界面

image-20220328231615400

浏览器输入localhost:8088即进入Yarn集群节点的Web UI界面

image-20220329162846804

三 Spark配置

1 下载Scala

下载链接:https://www.scala-lang.org/download/2.13.8.html

选择scala-2.13.8.zip

2 配置Scala环境变量

将解压后的Scala的bin目录添加到Path系统变量中,打开cmd输入

scala

然后回车,如果能够正常进入到Scala的交互命令环境则表明配置成功

image-20220329160649950

3 下载Spark

由于spark-3.2.1版本在启动时会出现一点问题,具体原因没有深究。但尝试降低版本变成3.1.3版本后正常运行,所以就选择配置spark-3.1.3

Spark3.1.3和JDK11启动时会出现WARNING,更新到3.3.1和JDK17就好了

官网链接:https://dlcdn.apache.org/spark/

镜像地址:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/

「需要注意的是spark版本需要和hadoop版本对应.如果按照本文的配置即可忽略此行文字」

4 配置Spark环境变量

把Spark目录添加到系统变量SPARK_HOME,并在系统变量Path中添加%SPARK_HOME%\bin

image-20221220133500282

5 启动Spark

打开cmd窗口,输入

spark-shell

然后回车,如果能够正常进入到Spark的交互式命令行模式,则表明配置成功

image-20221220133625113

浏览器输入localhost:4040即进入Spark的Web UI界面

image-20220329162439079

  • 13
    点赞
  • 64
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 22
    评论
Windows 10是一种操作系统,可以用于开发和测试HadoopSpark的本地环境。 要在Windows 10上进行HadoopSpark的开发和测试,我们可以使用一些工具和软件。 首先,我们可以使用HadoopSpark的官方网站提供的二进制文件来安装它们。我们需要下载和安装Hadoop的二进制文件,然后配置Hadoop环境变量。在Hadoop安装完成后,我们还需要配置Hadoop的核心配置文件,例如hadoop-env.sh和core-site.xml。 接下来,我们可以下载和安装Spark的二进制文件,并将其配置为与Hadoop协同工作。我们需要在Spark配置文件中指定Hadoop的路径。我们还可以配置Spark的一些其他设置,例如内存分配和并行度等。 在安装和配置HadoopSpark之后,我们可以使用本地模式或伪分布式模式来进行开发和测试。本地模式是指将数据存储在本地文件系统上,并且不涉及集群。这使我们可以快速的进行开发和测试,但不适合处理大规模的数据。 伪分布式模式是指将数据存储在Hadoop的分布式文件系统(HDFS)上,并在本机上模拟一个分布式环境。这样,我们可以模拟真实环境的数据处理和分布式计算。在伪分布式模式下,我们可以运行Hadoop的各种任务和Spark的作业,以测试它们的性能和可靠性。 总之,使用Windows 10可以在本地开发和测试HadoopSpark环境。我们需要下载和安装HadoopSpark的二进制文件,并进行适当的配置。然后,我们可以在本地模式或伪分布式模式下进行开发和测试。这样,我们可以在一个便捷和可控的环境中进行HadoopSpark的开发和测试,以满足我们的需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 22
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zhangz1z

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值