Spark简介与安装

最新推荐文章于 2022-10-12 10:27:09 发布

虚心若愚求知若渴

最新推荐文章于 2022-10-12 10:27:09 发布

阅读量170

点赞数

分类专栏：大数据文章标签：大数据 Spark

本文链接：https://blog.csdn.net/weixin_39806100/article/details/90761067

版权

大数据专栏收录该内容

12 篇文章 0 订阅

订阅专栏

spark简介

Apache Spark™是用于大规模数据处理的统一分析引擎。

特点：
1，速度快，比Hadoop快100倍（Hadoop3之前）。
2，易于使用，支持多种语言开发。
3，通用性，生态系统全。
4，兼容性，兼容Hadoop。

官网地址：http://spark.apache.org/

spark生态圈

Spark core： RDD（弹性分布式数据集）
Spark SQL：处理结构化数据
Spark Streaming： 流式计算
Spark MLLib： 协同过滤，ALS，逻辑回归等等 --> 机器学习
Spark Graphx： 图计算

spark架构

Sparké›†ç¾¤ç"„ä"¶
1557762260837

Client：客户端，用于将（Driver：应用程序）提交给spark主节点。提交方式：1，spark-submit。2，spark-shell。
ClusterManager(Master)：主节点，用于：1，管理集群和分配任务。2，接收客户端请求（执行任务的请求）。3，支持的类型：Standalone（本机调试），Yarn，Mesos。
Worker：从节点，每个节点管理资源和任务。
Executor：任务执行者，按阶段（Stage）划分任务（RDD的依赖关系）。

spark安装部署

下载

https://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.7.tgz

目录结构

配置

conf/spark-env.sh

mv spark-env.sh.template spark-env.sh
vi spark-env.sh

#添加 jdk环境变量和主节点
export JAVA_HOME=/opt/moudle/jdk1.8.0_181
export SPARK_MASTER_HOST=bigdata121
export SPARK_MASTER_PORT=7077

conf/slaves

mv slaves.template slaves

#添加从节点
bigdata122
bigdata123

bigdata122和bigdata122是配置的域名 1557763924237

scp复制spark到从节点

scp -r /opt/moudle/spark-2.1.0-bin-hadoop2.7/ bigdata122:$PWD
scp -r /opt/moudle/spark-2.1.0-bin-hadoop2.7/ bigdata123:$PWD

ssh免密登录

ssh-keygen -t rsa

ssh-copy-id -i ~/.ssh/id_rsa.pub root@bigdata121
ssh-copy-id -i ~/.ssh/id_rsa.pub root@bigdata122
ssh-copy-id -i ~/.ssh/id_rsa.pub root@bigdata123

#其它两台机器重复上面的操作。

启动

sbin

./start-all.sh

查看启动进程

jps

#主节点
Master
#从节点
Worker

1586 SecondaryNameNode
1396 NameNode
1740 ResourceManager

web访问

http://10.1.255.121:8080

spark HA（High Available 高可用性集群）

基于文件目录的HA

本质：还是只有一个主节点Master，创建了一个恢复目录，保存集群状态和任务信息。当Master挂掉，重启时，会从恢复目录下读取状态信息，恢复出原来的状态。用途：用于开发和测试，生产用zookeeper。

vi conf/spark-env.sh

#添加 注：recovery目录需要创建
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=FILESYSTEM -Dspark.deploy.recoveryDirectory=/opt/moudle/spark-2.1.0-bin-hadoop2.7/recovery"

基于zookeeper的HA

zookeeper：
相当于一个数据库，把一些信息存放在zookeeper中，比如集群信息。
数据同步功能，选举功能，分布式锁功能。
数据同步：给一个节点中写入数据，可以同步到其它节点。
选举：zookeeper中存在不同角色，Leader Follower。 如果Leader挂掉，重新选举Leader。
分布式锁：秒杀。保存数据以目录节点的方式来保存数据。

vi conf/spark-env.sh

#添加
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=bigdata121:2181,bigdata122:2181,bigdata123:2181 -Dspark.deploy.zookeeper.dir=/spark"