Win10安装配置Spark3.0.2+单机版hadoop+JDK并运行实例+安装运行Docker

最新推荐文章于 2023-11-06 16:58:47 发布

123*321

最新推荐文章于 2023-11-06 16:58:47 发布

阅读量1.4k

点赞数 4

文章标签： hadoop spark 大数据

本文链接：https://blog.csdn.net/ZN_COME/article/details/117167474

版权

文章目录

1.安装JDK
2.安装hadoop
3.安装spark
4.anaconda配置spark
5.安装Docker

1.安装JDK

可以去官网https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html下载所需要的版本
也可以直接白嫖，因为下载官网下载要注册登陆！
配置环境变量
新建环境变量：JAVA_HOME

将%JAVA_HOME%\bin添加进PATH中
在这里插入图片描述
测试：cmd里面输入Javac 如果出现以下情况说明安装正常

至此，JDK安装完毕（简单吧!)
这里温馨提醒一下：由于后期安装hadoops时要用到JDK安装的绝对路径，所以安装JDK的路径名最好中间不要有空格，否则会报一下奇怪的错误，会直接导致Hadoop启动失败

2.安装hadoop

1.下载hadoop-3.0.0下载地址：
http://archive.apache.org/dist/hadoop/core/
在这里插入图片描述

下载完毕后，解压hadoop压缩包到指定路径（不要太复杂）

配置hadoop环境：
新建环境变量：HADOOP_HOME

在PATH中添加：
%HADOOP_HOME%\bin
%HADOOP_HOME%\sbin

检查hadoop环境是否配置成功：
输入hadoop version

进入E:\hadoop\hadoop-3.0.0\etc\hadoop配置hadoop相关配置文件在这里插入图片描述
core-site.xml

<configuration>
  <property>
       <name>fs.default.name</name>
       <value>hdfs://localhost:9000</value>
   </property>
<!-- 缓存存储路径 -->
	<property>
        <name>hadoop.tmp.dir</name>
        <value>/app/hadooptemp</value>
    </property>
 </configuration>

hdfs-site.xml
在安装目录的根目录E:\hadoop\hadoop-3.0.0创建data目录，作为数据存储路径：（路经以自己的安装路径为准）

在data目录下创建datanode目录；
在data目录下创建namenode目录；
在这里插入图片描述

<configuration>
	<!-- 这个参数设置为1，因为是单机版hadoop -->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
	<property> 
     <name>dfs.permissions</name> 
     <value>false</value> 
  </property>
   <property>
       <name>dfs.namenode.name.dir</name>
       <value>/E:/hadoop/hadoop-3.0.0/data/namenode</value>
   </property>
   <property>
		<name>fs.checkpoint.dir</name>
		<value>/E:/hadoop/hadoop-3.0.0/data/snn</value>
	</property>
	<property>
		<name>fs.checkpoint.edits.dir</name>
		<value>/E:/hadoop/hadoop-3.0.0/data/snn</value>
	</property>
	   <property>
       <name>dfs.datanode.data.dir</name>
       <value>/E:/hadoop/hadoop-3.0.0/data/datanode</value>
   </property>
</configuration>

mapred-site.xml

<configuration>
<property>
       <name>vix.mapreduce.framework.name</name>
       <value>yarn</value>
   </property>
</configuration>

yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
<property>
        <name>vix.yarn.resourcemanager.address</name>
        <value>basecoalmine:18040</value>
    </property>
    <property>
        <name>vix.yarn.resourcemanager.scheduler.address</name>
        <value>basecoalmine:1800</value>
    </property>>

</configuration>

修改E:\hadoop\hadoop-3.0.0\etc\hadoop\hadoop-env.cmd配置，(路径以自己的安装路径为准)

  找到 set JAVA_HOME=%JAVA_HOME%  替换为 set JAVA_HOME=C:\java\jdk1.8.0_131

在这里插入图片描述
替换bin目录文件
前往https://github.com/luk-qianliu/winutils-master下载bin目录下的编译文件，然后选择对应版本替换安装目录下bin中的所有文件（这步很重要！！！）

完成以上操作，hadoop配置全部完成
启动hadoop
首次启动需要格式化文件系统，在bin目录下，打开命令窗口执行： .\hdfs namenode -format
在这里插入图片描述
格式化完成后，在进入到sbin目录下，执行 start-all.cmd 启动服务

成功启动了四个服务：

至此，hadoop成功安装！
测试hadoop——运行mapreduce例子计算圆周率
在启动了hadoop后，进入E:\hadoop\hadoop-3.0.0\share\hadoop\mapreduce目录，输入命令：hadoop jar hadoop-mapreduce-examples-3.0.0.jar pi 20 30
在这里插入图片描述
最后得到输出结果：

3.安装spark

Spark下载地址：
http://spark.apache.org/downloads.html
在这里插入图片描述
下载完成后，将压缩包解压至E:\spark目录（根据自己需要安装路径）

配置Spark环境变量
新建环境变量：SPARK_HOME：E:\spark\spark-3.0.2-bin-hadoop3.2

添加PATH：
%SPARK_HOME%\bin
%SPARK_HOME%\sbin

测试Spark环境变量是否配置成功

打开cmd，输入命令：spark-shell
在这里插入图片描述
至此，Spark安装成功！

4.anaconda配置spark

打开 anaconda prompt ，输入命令：pip install findspark
在这里插入图片描述
验证和使用
导入库文件：
import findspark
findspark.init()
导入你要使用的pyspark库：
from pyspark import *

运行测试实例：
1.als.py
cmd进入E:\spark\spark-3.0.2-bin-hadoop3.2\bin目录
输入：spark-submit E:\spark\spark-3.0.2-bin-hadoop3.2\examples\src\main\python\als.py
在这里插入图片描述
最后得到运算结果：

2.pi.py
cmd进入E:\spark\spark-3.0.2-bin-hadoop3.2\bin目录
输入：spark-submit E:\spark\spark-3.0.2-bin-hadoop3.2\examples\src\main\python\pi.py 或者
输入：run-example SparkPi 20 可修改迭代次数

输出结果：
在这里插入图片描述

5.安装Docker

引言
Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器或Windows 机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。

环境准备
1.1 开启win10的Hyper-V
控制面板 -> 程序 -> 启用或关闭Windows功能 -> 选中Hyper-V
确定后，会提示重启电脑，完成功能的设置
在这里插入图片描述
1.2进入任务管理器看虚拟化是否已启用（一般Win10系统的都支持虚拟化）

下载安装
2.1 下载Docker for Windows
官网地址：https://docs.docker.com/docker-for-windows/install/#download-docker-for-windows

一直点击 Next，安装路径根据自己路径更改，点击 Finish 完成安装。
启动并使用
3.1启动Docker
安装完成不会自动启动，需要在桌面找到鲸鱼小图标：双击启动

在这里插入图片描述
启动成功后，在隐藏菜单栏会出现白色小鲸鱼图标：

这里贴出一个启动遇到的坑：
首先在Windows功能中勾选：

在启动Docker时会提示以下信息：

通过查阅资料得知我们使用的WSL2版本老了,需要我们手动更新WSL2版本,我们根据提示去微软官网下载最新版的wsl2安装后即可正常打开。下载地址：https://wslstorestorage.blob.core.windows.net/wslblob/wsl_update_x64.msi
通过提示完成WSL2的版本更新后，可以成功启动Docker
3.2查看docker版本信息：docker --version；docker version；docker info
在这里插入图片描述

3.3 测试用例——hello-world：docker run hello-world

3.4启动一个Ubuntu容器：docker run -it ubuntu bash
输入：exit 退出

3.5启动一个nginx容器：docker run -d -p 81:80 --name webserver nginx

浏览器输入：localhost:81 确认启动成功
在这里插入图片描述
3.6 查看已启动所有容器：docker ps -a

3.7查看运行中的容器：docker ps

完成以上测试命令，Docker成功安装！！！

123*321

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Win10安装配置Spark3.0.2+单机版hadoop+JDK并运行实例+安装运行Docker

文章目录：@[TOC]1.安装JDK@[TOC]2.安装hadoop@[TOC]3.安装spark1.安装JDK可以去官网https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html下载所需要的版本也可以直接白嫖，因为下载官网下载要注册登陆！配置环境变量新建环境变量：JAVA_HOME将%JAVA_HOME%\bin添加进PATH中测试：cmd里面输入Javac 如果出现以下情况说明安装正常至
复制链接

扫一扫