怎么在windows10环境下搭建hadoop+spark环境

最新推荐文章于 2025-01-17 08:00:00 发布

小黑带你做毕设

最新推荐文章于 2025-01-17 08:00:00 发布

阅读量772

点赞数

分类专栏：大数据专业文章标签： hadoop spark 大数据

本文链接：https://blog.csdn.net/2301_77498077/article/details/130840990

版权

大数据专业专栏收录该内容

1 篇文章 0 订阅

订阅专栏

该文详细介绍了在Windows10操作系统上安装和配置Hadoop及Spark的步骤，包括设置JDK环境变量，下载并解压安装文件，配置Hadoop的core-site.xml和hdfs-site.xml，启动Hadoop集群，以及安装Spark，配置Spark-env.cmd，启动Spark集群的过程。用户可通过Web界面检查两者是否成功启动。

摘要由CSDN通过智能技术生成

步骤1：准备环境

在开始之前，确保您已准备好以下环境：

Windows 10操作系统。
Java Development Kit（JDK）的安装。确保您已安装了JDK，并配置了JAVA_HOME环境变量。
Hadoop的安装文件。您可以从Apache官网下载最新版本的Hadoop压缩包。
Spark的安装文件。您可以从Apache官网下载最新版本的Spark压缩包。

步骤2：安装Hadoop

解压Hadoop压缩包到您选择的目录。将解压后的文件夹重命名为hadoop，以方便后续操作。
配置Hadoop环境变量：
- 打开系统环境变量设置。
- 创建一个名为HADOOP_HOME的新变量，将其值设置为Hadoop的安装路径（例如：C:\hadoop）。
- 在Path变量中追加%HADOOP_HOME%\bin和%HADOOP_HOME%\sbin。
配置Hadoop的核心文件：
- 在Hadoop安装目录中，找到etc\hadoop文件夹。
- 复制core-site.xml.template文件并将其重命名为core-site.xml。
- 编辑core-site.xml，设置以下属性：
```
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
</configuration>
```
- 复制hdfs-site.xml.template文件并将其重命名为hdfs-site.xml。
- 编辑hdfs-site.xml，设置以下属性：
```
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
</configuration>
```
启动Hadoop集群：
- 打开命令提示符或PowerShell，并导航到Hadoop安装目录的bin文件夹。
- 运行以下命令启动Hadoop集群：
```
hdfs namenode -format
start-all.cmd
```
- 您可以通过访问http://localhost:9870检查Hadoop的Web界面，确认集群已成功启动。

步骤3：安装Spark

解压Spark压缩包到您选择的目录。将解压后的文件夹重命名为spark，以方便后续操作。
配置Spark环境变量：
- 打开系统环境变量设置。
- 创建一个名为SPARK_HOME的新变量，将其值设置为Spark的安装路径（例如：C:\spark）。
- 在Path变量中追加%SPARK_HOME%\bin。
配置Spark集群模式：
- 在Spark安装目录中，找到conf文件夹。
- 复制spark-env.cmd.template文件并将其重命名为spark-env.cmd。
- 编辑spark-env.cmd，设置以下属性：
```
set HADOOP_CONF_DIR=%HADOOP_HOME%\etc\hadoop
```
启动Spark集群：
- 打开命令提示符或PowerShell，并导航到Spark安装目录的sbin文件夹。
- 运行以下命令启动Spark集群：
```
start-master.cmd
start-worker.cmd spark://localhost:7077
```
- 您可以通过访问http://localhost:8080检查Spark的Web界面，确认集群已成功启动。