Windows下配置Hadoop及Spark环境

原创已于 2023-06-14 22:38:34 修改 · 1w 阅读

100 ·

CC 4.0 BY-SA版权

文章标签：

#spark #hadoop #大数据

于 2022-03-29 16:48:30 首次发布

大数据专栏收录该内容

7 篇文章

订阅专栏

本文详细介绍如何在Windows环境下配置Hadoop与Spark集群，包括JDK、Hadoop、Scala及Spark的安装与环境变量配置步骤，并提供启动及验证方法。

前言

教程所用各版本说明

一 JDK环境配置

~~由于项目用的JDK17，所以单独给Hadoop配了JDK11，建议直接配置JAVA_HOME环境变量为JDK11，因为后面Spark需要用到JAVA_HOME~~

下载JDK11

链接：https://www.oracle.com/java/technologies/javase/jdk11-archive-downloads.html

目前Hadoop和Spark兼容JDK11和JDK8

单独修改Hadoop的话，需要在Hadoop目录下的etc\hadoop\文件夹中hadoop-env.cmd中添加一行
set JAVA_HOME=E:\Environment\jdk-11.0.13（此处填写你的JDK路径）

注：JDK、Hadoop以及Spark的文件路径中不能出现空格和中文，类似于Program Files这样的文件夹名是不被允许的

二 Hadoop配置

1 下载Hadoop

镜像链接：https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/core/hadoop-3.3.2/

选择hadoop-3.3.2.tar.gz

下载winutils.exe和hadoop.dll，Windows安装Hadoop需要这部分文件

链接：https://github.com/cdarlint/winutils

找到对应的版本对应bin目录中的文件，放入Hadoop下的bin 文件夹中

2 配置Hadoop环境变量

把Hadoop目录添加到系统变量HADOOP_HOME，并在系统变量Path中添加%HADOOP_HOME%\bin

cmd输入

hadoop version

n测试是否正常显示版本信息

3 配置hadoop

打开Hadoop所在目录下etc\hadoop的文件夹

修改core-site.xml：

先在Hadoop目录下创建data文件夹，配置文件中路径前需加"/"。HDFS可使用localhost，如果在hosts文件已经配置了主机映射，也可以直接填主机名

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/E:/Environment/hadoop-3.3.2/data/tmp</value> //注意前面部分路径修改为自己的
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

修改hdfs-site.xml：

<configuration>
    <!-- 这个参数设置为1，因为是单机版hadoop -->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/E:/Environment/hadoop-3.3.2/data/namenode</value> //注意前面部分路径修改为自己的
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/E:/Environment/hadoop-3.3.2/data/datanode</value> //注意前面部分路径修改为自己的
    </property>
</configuration>

修改mapred-site.xml：

<configuration>
    <property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
    </property>
    <property>
       <name>mapred.job.tracker</name>
       <value>hdfs://localhost:9001</value>
    </property>
</configuration>

修改yarn-site.xml：

<configuration>
	 <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
	<property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hahoop.mapred.ShuffleHandler</value>
    </property>
</configuration>