- 博客(3)
- 收藏
- 关注
转载 Spark Application执行流程
对书籍以及博客中的Spark知识简单的梳理、记录。 (一) 什么是Spark Application? application(应用)其实就是spark-submit提交的spark应用程序。一个完整的Spark应用程序包含如下几个基本步骤: 获取输入数据(通过序列获取,读取HDFS,读取数据库,读去S3等!) 处理数据(具体的代码逻辑) 输出结果(导入到HDFS,Hbase,MySQL等存储)...
2019-04-08 22:29:29
3270
2
转载 zookeeper的选举机制
对分布式协调服务系统zookeeper的学习做一个简单的总结,本文主要简介zookeeper的选举机制。 (一) zookeeper的介绍 zookeeper实际上是yahoo开发的,用于分布式中一致性处理的框架。最初其作为研发Hadoop时的副产品。但由于分布式协调服务系统的处理困难,其他分布式服务框架没必要重新开放一款框架来处理。因此在很多分布式服务的框架产品中我们都能看的zookeepe...
2019-04-10 15:45:23
485
转载 Spark RDD DF DS 的区别与联系
Spark RDD DF DS 的区别与联系 三者的联系 1)都是spark中得弹性分布式数据集,轻量级 2)都是惰性机制,延迟计算 3)根据内存情况,自动缓存,加快计算速度 4)都有partition分区概念 5)众多相同得算子:map flatmap 等等 三者的区别 RDD - 优点: 编译时类型安全 编译时就能检查出类型错误 面向对象的编程风格 直接通过类名点的方式来操作数据 - 缺点...
2019-04-08 11:48:54
4194
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅