BigData
hanmini
这个作者很懒,什么都没留下…
展开
-
Spark核心概念
Spark核心概念简介 一个Spark应用都由驱动器程序发起集群上的各种并发操作,一个驱动器程序一般包含多个执行器节点,驱动器程序通过一个SaprkContext对象访问saprk。RDD(弹性分布式数据集)——分布式的元素集合,RDD支持两种操作:转化操作、行动操作,如map、reduce函数。原创 2015-12-05 14:45:47 · 351 阅读 · 0 评论 -
http://airos.blog.51cto.com/10853324/1719870
初识Spark RDDSpark 工作方式 1、从外部数据创建输入RDD 2、对RDD进行转化操作生成新的RDD 3、需要被重复利用的中间结果RDD进行持久化操作,如 persist() 4、使用行动操作触发一次并行计算,Spark对计算优化后再执行创建RDD 两种办法:1、分发驱动器程序中的对象集合 2、读取外部数据集 以读转载 2015-12-05 18:42:16 · 462 阅读 · 0 评论 -
Spark常用RDD操作汇总
Spark RDD 常用RDD操作汇合(不含键值对操作)针对以上操作给出部分仿例常用RDD操作知识图谱学习RDD转化操作、行动操作 转化操作 一个数据集RDD map、flatMap、filter、distinct、sample ... 两个数据集RDD un原创 2015-12-05 18:50:48 · 548 阅读 · 0 评论