- 博客(7)
- 资源 (6)
- 收藏
- 关注
转载 Spark RDD API详解 Map和Reduce
转载地址 : https://www.zybuluo.com/jewes/note/35032 RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是
2016-05-26 19:21:56 403
转载 Spark编程指南笔记
Spark编程指南笔记 本文是参考Spark官方编程指南(Spark 版本为1.2)整理出来的学习笔记,主要是用于加深对 Spark 的理解,并记录一些知识点。 1. 一些概念 每一个 Spark 的应用,都是由一个驱动程序构成,它运行用户的 mai
2016-05-26 18:55:25 1153
原创 Flume+kafka+spark streaming+scala(sbt编译) 例子演示
Flume+kafka+spark streaming+scala(sbt编译) 例子演示 原创。
2016-05-18 14:20:34 3073 3
原创 Scala中的高阶函数
文/霍斯曼 Scala混合了面向对象和函数式的特性。在函数式编程语言中,函数是“头等公民”,可以像任何其他数据类型一样被传递和操作。每当你想要给算法传入明细动作时这个特性就会变得非常有用。在函数式编程语言中,你只需要将明细动作包在函数当中作为参数传入即可。在本文中,你将会看到如何通过那些使用或返回函数的函数来提高我们的工作效率。 作为值的函数 在Scala中,函数是“头等
2016-05-08 15:02:34 1020
转载 Spark RDD详解
RDD:Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。
2016-05-07 18:23:21 2493
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人