win10下scala+spark+hadoop搭建

本文主要介绍win10环境下搭建hadoop伪分布式集群
说明:不推荐使用3.0以上Hadoop,因为笔者在HDFS格式化时出现主机地址映射问题无法解决


环境:

  • JDK:1.8.0.261
  • scala:2.12.12
  • spark:3.0.1
  • hadoop:2.7.7

环境搭建

JDK 1.8

下载地址https://mirrors.tuna.tsinghua.edu.cn/AdoptOpenJDK/
注意:建议选择JAVA 8,详细的安装配置教程请Google,注意环境变量JAVA_HOME和PATH的配置
验证:命令行输入 java -version
image.png

Scala

下载地址https://www.scala-lang.org/download/all.html,页面下方下载msi文件进行安装
注意:Scala和JDK、Spark均有版本对应关系

  • Spark runs on Java 8+, Python 2.7+/3.4+ and R 3.1+. For the Scala API, Spark 2.4.0 uses Scala 2.11. You will need to use a compatible Scala version (2.11.x).
    image.png

验证:命令行输入 scala
image.png

Spark

下载地址:http://spark.apache.org/downloads.html,选择对应版本的spark和hadoop并下载解压
注意:Spark文件目录中不允许含有空格!记得将/bin添加至环境变量中
验证:命令行输入 spark-shell
image.png

Hadoop

下载地址https://archive.apache.org/dist/hadoop/common/,选择对应的版本解压并配置环境变量
注意:hadoop在windows上运行需要winutils支持和hadoop.dll等文件

winutils支持

下载地址:https://github.com/cdarlint/winutils
下载对应版本的winutils并替换hadoop的bin文件(下载可以使用Github文件夹下载

jdk支持

可能出现报错:

Hadoop基于Java实现的,所以依赖了JDK,需要修改etc\hadoop\hadoop-env.cmd文件(根据自己的jdk路径
image.png
(此处修改是因为Hadoop本身存在bug,无法识别JAVA_HOME的环境变量读取到jdk地址,所以直接写死)
验证:命令行输入 hadoop version
image.png

Hadoop分布式集群配置

分布式集群配置

注:以下配置文件请均按照自己hadoop的安装路径进行相应修改
\etc\hadoop\core-site.xml

<configuration>
	<property>
       <name>fs.default.name</name>
       <value>hdfs://localhost:9000</value>
   </property>
</configuration>

\etc\hadoop\hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
	<property> 
     <name>dfs.permissions</name> 
     <value>false</value> 
  </property>
   <property>
       <name>dfs.namenode.name.dir</name>
       <value>/C:/develop/hadoop-2.7.7/data/namenode</value>
   </property>
   <property>
		<name>fs.checkpoint.dir</name>
		<value>/C:/develop/hadoop-2.7.7/data/snn</value>
	</property>
	<property>
		<name>fs.checkpoint.edits.dir</name>
		<value>/C:/develop/hadoop-2.7.7/data/snn</value>
	</property>
	   <property>
       <name>dfs.datanode.data.dir</name>
       <value>/C:/develop/hadoop-2.7.7/data/datanode</value>
   </property>
</configuration>

\etc\hadoop\mapred-site.xml

<configuration>
	<property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
   </property>
</configuration>

\etc\hadoop\yarn-site.xml

<configuration>
	<property>
    	<name>yarn.nodemanager.aux-services</name>
    	<value>mapreduce_shuffle</value>
   </property>
   <property>
      	<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>  
		<value>org.apache.hadoop.mapred.ShuffleHandler</value>
   </property>
</configuration>

启动Hadoop

1、命令行输入 hdfs namenode -format 格式化文件系统
image.png
说明:可能会出现如下中断,但只要没有其他错误并且有红框内容即为成功(win特有问题,主机地址映射)
image.png
【以上命令只在初始化时执行,格式化完成后再次使用时直接从下面命令开始即可】
2、接下来进入路径:“C:\develop\hadoop-2.7.7\sbin”,执行命令.\start-all.cmd
hadoop运行截图.png
可以看到我们启动了四个服务,通过命令jps 显示得,分别是

  • Hadoop Namenode(文件系统目录,类似于书的目录部分)
  • Hadoop datanode(数据文件内容,就是书的正文)
  • YARN Resourc Manager(统一节点管理、调度者)
  • YARN Node Manager (各个子节点)

HDFS应用管理

查询节点状态

浏览器访问:http://localhost:8088/
8088.png
由于以上配置为单节点,所以可以看到我们的一个节点以及集群状况

文件管理

浏览器访问:http://localhost:50070/(3.0以上Hadoop:http://localhost:9870/
namenode.png

参考文章

Window(win10)下安装Hadoop3.0.0安装步骤介绍
Spark在Windows下的环境搭建
windows环境搭建hadoop集群

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值