Spark简介与安装

spark简介

Apache Spark™是用于大规模数据处理的统一分析引擎。

特点:
1,速度快,比Hadoop快100倍(Hadoop3之前)。
2,易于使用,支持多种语言开发。
3,通用性,生态系统全。
4,兼容性,兼容Hadoop。

官网地址:http://spark.apache.org/

spark生态圈

Spark core: RDD(弹性分布式数据集)
Spark SQL:处理结构化数据
Spark Streaming: 流式计算
Spark MLLib: 协同过滤,ALS,逻辑回归等等 --> 机器学习
Spark Graphx: 图计算

spark架构

Spark集群ç"„ä"¶
1557762260837

Client:客户端,用于将(Driver:应用程序)提交给spark主节点。提交方式:1,spark-submit。2,spark-shell。
ClusterManager(Master):主节点,用于:1,管理集群和分配任务。2,接收客户端请求(执行任务的请求)。3,支持的类型:Standalone(本机调试),Yarn,Mesos。
Worker:从节点,每个节点管理资源和任务。
Executor:任务执行者,按阶段(Stage)划分任务(RDD的依赖关系)。

spark安装部署

下载
https://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.7.tgz
目录结构在这里插入图片描述
配置
conf/spark-env.sh
mv spark-env.sh.template spark-env.sh
vi spark-env.sh

#添加 jdk环境变量和主节点
export JAVA_HOME=/opt/moudle/jdk1.8.0_181
export SPARK_MASTER_HOST=bigdata121
export SPARK_MASTER_PORT=7077
conf/slaves
mv slaves.template slaves

#添加从节点
bigdata122
bigdata123

bigdata122和bigdata122是配置的域名1557763924237

scp复制spark到从节点
scp -r /opt/moudle/spark-2.1.0-bin-hadoop2.7/ bigdata122:$PWD
scp -r /opt/moudle/spark-2.1.0-bin-hadoop2.7/ bigdata123:$PWD
ssh免密登录
ssh-keygen -t rsa

ssh-copy-id -i ~/.ssh/id_rsa.pub root@bigdata121
ssh-copy-id -i ~/.ssh/id_rsa.pub root@bigdata122
ssh-copy-id -i ~/.ssh/id_rsa.pub root@bigdata123

#其它两台机器重复上面的操作。
启动
sbin
./start-all.sh
查看启动进程
jps

#主节点
Master
#从节点
Worker

1586 SecondaryNameNode
1396 NameNode
1740 ResourceManager
web访问
http://10.1.255.121:8080

spark HA(High Available 高可用性集群)

基于文件目录的HA
本质:还是只有一个主节点Master,创建了一个恢复目录,保存集群状态和任务信息。当Master挂掉,重启时,会从恢复目录下读取状态信息,恢复出原来的状态。用途:用于开发和测试,生产用zookeeper。
vi conf/spark-env.sh

#添加 注:recovery目录需要创建
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=FILESYSTEM -Dspark.deploy.recoveryDirectory=/opt/moudle/spark-2.1.0-bin-hadoop2.7/recovery"
基于zookeeper的HA

img

zookeeper:
相当于一个数据库,把一些信息存放在zookeeper中,比如集群信息。
数据同步功能,选举功能,分布式锁功能。
数据同步:给一个节点中写入数据,可以同步到其它节点。
选举:zookeeper中存在不同角色,Leader Follower。 如果Leader挂掉,重新选举Leader。
分布式锁:秒杀。保存数据以目录节点的方式来保存数据。
vi conf/spark-env.sh

#添加
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=bigdata121:2181,bigdata122:2181,bigdata123:2181 -Dspark.deploy.zookeeper.dir=/spark"
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值