步骤1:准备环境
在开始之前,确保您已准备好以下环境:
- Windows 10操作系统。
- Java Development Kit(JDK)的安装。确保您已安装了JDK,并配置了JAVA_HOME环境变量。
- Hadoop的安装文件。您可以从Apache官网下载最新版本的Hadoop压缩包。
- Spark的安装文件。您可以从Apache官网下载最新版本的Spark压缩包。
步骤2:安装Hadoop
-
解压Hadoop压缩包到您选择的目录。将解压后的文件夹重命名为
hadoop
,以方便后续操作。 -
配置Hadoop环境变量:
- 打开系统环境变量设置。
- 创建一个名为
HADOOP_HOME
的新变量,将其值设置为Hadoop的安装路径(例如:C:\hadoop)。 - 在
Path
变量中追加%HADOOP_HOME%\bin
和%HADOOP_HOME%\sbin
。
-
配置Hadoop的核心文件:
-
在Hadoop安装目录中,找到
etc\hadoop
文件夹。 -
复制
core-site.xml.template
文件并将其重命名为core-site.xml
。 -
编辑
core-site.xml
,设置以下属性:<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
-
复制
hdfs-site.xml.template
文件并将其重命名为hdfs-site.xml
。 -
编辑
hdfs-site.xml
,设置以下属性:<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
-
-
启动Hadoop集群:
-
打开命令提示符或PowerShell,并导航到Hadoop安装目录的
bin
文件夹。 -
运行以下命令启动Hadoop集群:
hdfs namenode -format start-all.cmd
-
您可以通过访问http://localhost:9870检查Hadoop的Web界面,确认集群已成功启动。
-
步骤3:安装Spark
-
解压Spark压缩包到您选择的目录。将解压后的文件夹重命名为
spark
,以方便后续操作。 -
配置Spark环境变量:
- 打开系统环境变量设置。
- 创建一个名为
SPARK_HOME
的新变量,将其值设置为Spark的安装路径(例如:C:\spark)。 - 在
Path
变量中追加%SPARK_HOME%\bin
。
-
配置Spark集群模式:
- 在Spark安装目录中,找到
conf
文件夹。 - 复制
spark-env.cmd.template
文件并将其重命名为spark-env.cmd
。 - 编辑
spark-env.cmd
,设置以下属性:set HADOOP_CONF_DIR=%HADOOP_HOME%\etc\hadoop
- 在Spark安装目录中,找到
-
启动Spark集群:
-
打开命令提示符或PowerShell,并导航到Spark安装目录的
sbin
文件夹。 -
运行以下命令启动Spark集群:
start-master.cmd start-worker.cmd spark://localhost:7077
-
您可以通过访问http://localhost:8080检查Spark的Web界面,确认集群已成功启动。
-