Spark
文章平均质量分 85
sandra_csdn
这个作者很懒,什么都没留下…
展开
-
spark_RDD数据操作
RDD数据操作RDD基础RDD是Spark对数据的核心抽象—弹性分布式数据集(Resilient Distributed DataSet)。RDD表示分布在多个计算节点上不可变的、可以并行操作的元素集合。Spark中对RDD的操作包括创建RDD,转化已有的RDD(transformation)以及调用RDD操作(action)进行求值。原创 2017-09-24 13:42:14 · 3150 阅读 · 0 评论 -
Spark_共享变量
共享变量共享变量有两种:累加器和广播变量累加器用来对信息进行聚合,广播变量用来高效分发较大的对象原创 2017-09-27 10:09:00 · 468 阅读 · 0 评论 -
Spark_分区、任务等概念总结
Spark分区数、task数目、core数目、worker节点数目、executor数目梳理spark隐式创建由操作组成的逻辑上的有向无环图。原创 2017-09-27 11:02:57 · 3246 阅读 · 2 评论 -
Spark_任务执行过程
spark任务、步骤、作业原创 2017-09-27 15:47:12 · 601 阅读 · 0 评论