spark的工作机制详细介绍、spark源码编译、spark编程实战

最新推荐文章于 2021-01-12 20:39:29 发布

冥想者-定

最新推荐文章于 2021-01-12 20:39:29 发布

阅读量828

点赞数 1

分类专栏： ********Spark

********Spark 专栏收录该内容

29 篇文章 0 订阅

订阅专栏

spark通信模块
1、spark的 cluster manager可以有 local , standalone, mesos , yarn等部署方式，为了
集中通信方式
1、rpc remote produce call
spark的通信机制：
akka的优势和特性如下：
1、并行和分布式：akka在设计时采用了异步通信和分布式架构
2、可靠性：在本地、远程都有监控和恢复机制
3、高性能：在单机环境中美妙可以发送50000000 个消息，1GB内存中可以创建和保存2500000个actor对象
4、去中心，区别于master-slave模式，采取无中心节点的架构
5、可拓展性：可以在分布式环境下记性scala out ，线性扩充计算能力。
可以看到akka具有强大的并发处理能力。

4.5容错机制
4.5.1 lineage机制 rdd的依赖
有宽依赖，还有窄依赖
宽依赖的：lineage 根据分区，来进行恢复，很简单
窄依赖：一个子的rdd有多个父亲，比较麻烦一点，所以增加了checkpoin ，检查点机制，其实就是备份的意思，来做容错处理
可以通过sparkcontext.setcheckpointdir（）设置检查点数据的存储路径，进而将数据存储备份，然后spark删除所有已经做检查点的rdd的祖先rdd依赖。这个操作需要在所有需要对这个rdd所做的操作完成之后再做。
官方建议：做检查点的rdd最好是在内存中已经缓存的rdd，否则这个rdd在持久化的文件中需要重新计算，产生io开销。

4.6shuffler机制
shufffler write
shuffler fetch
shuffler aggenr

spark在执行过程中中driver控制应用生命周期，在调度中，spark采用了经典的fifo 和fair等调度算法对内部的资源实现不同级别的调度。在spark的io中，将数据抽象为以快为单位进行管理，rdd中的一个分区就是需要处理的一个快，集群中的通信对于命令和状态的传递极为重要，spark通过akka框架进行集群消息通信，spark通过 lineage和checkpoint机制进行容错性保证，lineage进行重算操作，checkpoint进行数据冗余备份，最后介绍了spark中的shuffle机制，spark也借鉴了mapreduce模型，但是其shuffle 机制进行了创新与优化，
第五章： spark 开发环境配置和流程

第六章：spark编程实战
1、wordcount

spark的工作机制详细介绍、spark源码编译、spark编程实战

冥想者-定

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark的工作机制详细介绍、spark源码编译、spark编程实战

spark通信模块1、spark的 cluster manager可以有 local , standalone, mesos , yarn等部署方式，为了集中通信方式1、rpc remote produce callspark的通信机制：akka的优势和特性如下：1、并行和分布式：akka在设计时采用了异步通信和分布式架构2、可靠性：在本地、远程都有监控和恢复机
复制链接

扫一扫