win10下scala+spark+hadoop搭建

最新推荐文章于 2024-04-25 23:14:50 发布

sunflower_zzn

最新推荐文章于 2024-04-25 23:14:50 发布

阅读量320

点赞数

分类专栏：云计算文章标签： hadoop scala spark windows

本文链接：https://blog.csdn.net/sunflower_zzn/article/details/109548663

版权

云计算专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文主要介绍win10环境下搭建hadoop伪分布式集群
说明：不推荐使用3.0以上Hadoop，因为笔者在HDFS格式化时出现主机地址映射问题无法解决

环境：

JDK：1.8.0.261
scala：2.12.12
spark：3.0.1
hadoop：2.7.7

环境搭建

JDK 1.8

下载地址：https://mirrors.tuna.tsinghua.edu.cn/AdoptOpenJDK/
注意：建议选择JAVA 8，详细的安装配置教程请Google，注意环境变量JAVA_HOME和PATH的配置
验证：命令行输入 java -version

Scala

下载地址：https://www.scala-lang.org/download/all.html，页面下方下载msi文件进行安装
注意：Scala和JDK、Spark均有版本对应关系

Spark runs on Java 8+, Python 2.7+/3.4+ and R 3.1+. For the Scala API, Spark 2.4.0 uses Scala 2.11. You will need to use a compatible Scala version (2.11.x).

验证：命令行输入 scala

Spark

下载地址：http://spark.apache.org/downloads.html，选择对应版本的spark和hadoop并下载解压
注意：Spark文件目录中不允许含有空格！记得将/bin添加至环境变量中
验证：命令行输入 spark-shell

Hadoop

下载地址：https://archive.apache.org/dist/hadoop/common/，选择对应的版本解压并配置环境变量
注意：hadoop在windows上运行需要winutils支持和hadoop.dll等文件

winutils支持

下载地址：https://github.com/cdarlint/winutils
下载对应版本的winutils并替换hadoop的bin文件（下载可以使用Github文件夹下载）

jdk支持

可能出现报错：

Hadoop基于Java实现的，所以依赖了JDK，需要修改etc\hadoop\hadoop-env.cmd文件（根据自己的jdk路径）

（此处修改是因为Hadoop本身存在bug，无法识别JAVA_HOME的环境变量读取到jdk地址，所以直接写死）
验证：命令行输入 hadoop version

Hadoop分布式集群配置

分布式集群配置

注：以下配置文件请均按照自己hadoop的安装路径进行相应修改
\etc\hadoop\core-site.xml

<configuration>
	<property>
       <name>fs.default.name</name>
       <value>hdfs://localhost:9000</value>
   </property>
</configuration>

\etc\hadoop\hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
	<property> 
     <name>dfs.permissions</name> 
     <value>false</value> 
  </property>
   <property>
       <name>dfs.namenode.name.dir</name>
       <value>/C:/develop/hadoop-2.7.7/data/namenode</value>
   </property>
   <property>
		<name>fs.checkpoint.dir</name>
		<value>/C:/develop/hadoop-2.7.7/data/snn</value>
	</property>
	<property>
		<name>fs.checkpoint.edits.dir</name>
		<value>/C:/develop/hadoop-2.7.7/data/snn</value>
	</property>
	   <property>
       <name>dfs.datanode.data.dir</name>
       <value>/C:/develop/hadoop-2.7.7/data/datanode</value>
   </property>
</configuration>

\etc\hadoop\mapred-site.xml

<configuration>
	<property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
   </property>
</configuration>

\etc\hadoop\yarn-site.xml

<configuration>
	<property>
    	<name>yarn.nodemanager.aux-services</name>
    	<value>mapreduce_shuffle</value>
   </property>
   <property>
      	<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>  
		<value>org.apache.hadoop.mapred.ShuffleHandler</value>
   </property>
</configuration>

启动Hadoop

1、命令行输入 hdfs namenode -format 格式化文件系统

说明：可能会出现如下中断，但只要没有其他错误并且有红框内容即为成功（win特有问题，主机地址映射）

【以上命令只在初始化时执行，格式化完成后再次使用时直接从下面命令开始即可】
2、接下来进入路径：“C:\develop\hadoop-2.7.7\sbin”，执行命令.\start-all.cmd
hadoop运行截图.png
可以看到我们启动了四个服务，通过命令jps 显示得，分别是

Hadoop Namenode（文件系统目录，类似于书的目录部分）
Hadoop datanode（数据文件内容，就是书的正文）
YARN Resourc Manager（统一节点管理、调度者）
YARN Node Manager （各个子节点）

HDFS应用管理

查询节点状态

浏览器访问：http://localhost:8088/

由于以上配置为单节点，所以可以看到我们的一个节点以及集群状况

文件管理

浏览器访问：http://localhost:50070/（3.0以上Hadoop：http://localhost:9870/）

参考文章

Window（win10）下安装Hadoop3.0.0安装步骤介绍
 Spark在Windows下的环境搭建
 windows环境搭建hadoop集群

sunflower_zzn

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
win10下scala+spark+hadoop搭建

本文主要介绍win10环境下搭建hadoop伪分布式集群说明：不推荐使用3.0以上Hadoop，因为笔者在HDFS格式化时出现主机地址映射问题无法解决文章目录环境搭建JDK 1.8ScalaSparkHadoopwinutils支持jdk支持Hadoop分布式集群配置分布式集群配置启动HadoopHDFS应用管理查询节点状态文件管理参考文章环境：JDK：1.8.0.261scala：2.12.12spark：3.0.1hadoop：2.7.7环境搭建JDK 1.8下载地址：htt.
复制链接

扫一扫

专栏目录