spark
文章平均质量分 77
未央夜色
这个作者很懒,什么都没留下…
展开
-
spark工作机制
spark这里以wordcount程序为例,演示spark的基本流程和原理基本概念RDD:弹性分布式数据集。数据存放在各个节点上。spark对RDD进行操作。算子:各种操作/行动。spark中的函数 创建变换缓存行动spark架构分析application:用户编写的spakr程序,包含驱动程序和要运行的代码driver驱动程序:main创建sparkcontent,程序结束后负责原创 2017-03-23 16:58:32 · 3472 阅读 · 0 评论 -
spark综述
spark综述一个大数据处理框架spark是一个开源分布式计算框架,有着丰富的数据操作方法。不只有mr模型使用scala语言。同时支持python,java,R。可以运行在多个平台上spark特别适合机器学习,RDD特性,高容错通用性强,可以处理四大组件spark四大组件和核心功能:spark core spakrcontext:一切的对象都是他产生的 存储体系:内存不足的时候才会原创 2017-03-21 16:00:45 · 852 阅读 · 0 评论 -
spark之RDD
RDD概念与特性RDD是spark最重要的抽象。spark统一建立在抽象的RDD之上。设计一个通用的编程抽象,使得spark可以应对各种场合的大数据情景。RDD模型将不同的组件融合到一起,选用其中的几个/所有,可以应付各种不同的场景。解决了mr的缺陷 1. 弹性分布式数据集Resilient Distributed Dataset。 2. 只读分区数据集,final修饰的 3. 一个分布原创 2017-03-27 15:20:48 · 3914 阅读 · 3 评论