搭建Spark伪分布式

最新推荐文章于 2024-03-11 17:23:42 发布

VIP文章 jzy2024

最新推荐文章于 2024-03-11 17:23:42 发布

阅读量1.2k

点赞数 1

文章标签： spark 分布式 hadoop

本文链接：https://blog.csdn.net/m0_59791585/article/details/125385592

版权

文章目录
零、本讲学习目标
一、搭建伪分布式Hadoop
（一）登录ied虚拟机
（二）配置免密登录
1、在ied虚拟机上生成密钥对
2、将生成的公钥发送到本机
3、验证虚拟机是否能免密登录本机
（三）下载与Spark版本匹配的Hadoop安装包
（四）上传Hadoop安装包
（五）将Hadoop安装包解压到指定目录
（六）查看Hadoop目录
1、查看Hadoop安装目录
2、查看Hadoop配置目录
3、查看sbin子目录
（七）配置Hadoop实现伪分布式
1、修改环境配置文件 - hadoop-env.sh
2、修改核心配置文件 - core-site.xml
3、修改分布式文件系统配置文件 - hdfs-site .xml
4、修改MapReduce配置文件 - mapred-site.xml
5、修改yarn配置文件 - yarn-site.xml
6、配置hadoop的环境变量
（八）格式化名称节点
（九）启动与关闭hadoop服务
1、启动Hadoop服务
2、停止hadoop服务
二、搭建伪分布式Spark
（一）进入spark配置目录
（二）修改环境配置文件 - spark-env.sh
（三）配置slaves文件
三、启动伪分布式Spark
（一）启动hadoop服务
（二）启动spark服务
四、交互式Spark Shell
（一）scala版spark shell
（二）python版spark shell
五、访问Spark WebUI
（一）启动scala版spark shell
（二）访问Spark WebUI
1、关闭与禁用虚拟机ied的防火墙
2、配置宿主机win7的hosts文件
3、访问Spark WebUI
零、本讲学习目标
学会搭建Spark伪分布式环境
学会启动Spark Shell进行交互式操作
学会使用Spark WebUI查看运行状态
Spark单机伪分布式是在一台机器上既有Master，又有Worker进程。搭建Spark单机伪分布式环境可在Hadoop伪分布式的基础上进行搭建。