Spark学习
文章平均质量分 77
明耀先森
乐观,开朗,喜欢编码
展开
-
Spark开发指南
Spark开发指南 从高的层面来看,其实每一个Spark的应用,都是一个Driver类,通过运行用户定义的main函数,在集群上执行各种并发操作和计算 Spark提供的最主要的抽象,是一个弹性分布式数据集(RDD),它是一种特殊集合,可以分布在集群的节点上,以函数式编程操作集合的方式,进行各种各样的并发操作。它可以由hdfs上的一个文件创建而来,或者是Driver程序中,从一个翻译 2015-08-07 14:51:08 · 786 阅读 · 0 评论 -
Spark RDD API详解(一) Map和Reduce
RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分,将介绍S原创 2015-08-07 15:44:19 · 698 阅读 · 0 评论 -
Spark学习笔记(一)
Spark知识掌握 第一阶段 要熟练掌握Scala的trait、apply、函数式编程、泛型、逆变与协变等; 第二阶段: 精通Spark平台本身提供给开发者API 1,掌握Spark中面向RDD的开发模式,掌握各种transformation和action函数的使用; 2,掌握Spark中的宽依赖和窄依赖以及lineage机制; 3,掌握RDD的计算流原创 2015-08-04 16:33:08 · 655 阅读 · 0 评论