Spark学习
蓝莓果粒茶
还远着呢
展开
-
Spark RDD DF DS 的区别与联系
Spark RDD DF DS 的区别与联系三者的联系1)都是spark中得弹性分布式数据集,轻量级2)都是惰性机制,延迟计算3)根据内存情况,自动缓存,加快计算速度4)都有partition分区概念5)众多相同得算子:map flatmap 等等三者的区别RDD- 优点: 编译时类型安全 编译时就能检查出类型错误 面向对象的编程风格 直接通过类名点的方式来操作数据- 缺点...转载 2019-04-08 11:48:54 · 3968 阅读 · 0 评论 -
Spark Application执行流程
对书籍以及博客中的Spark知识简单的梳理、记录。(一) 什么是Spark Application?application(应用)其实就是spark-submit提交的spark应用程序。一个完整的Spark应用程序包含如下几个基本步骤:获取输入数据(通过序列获取,读取HDFS,读取数据库,读去S3等!)处理数据(具体的代码逻辑)输出结果(导入到HDFS,Hbase,MySQL等存储)...转载 2019-04-08 22:29:29 · 2952 阅读 · 2 评论