- 博客(3)
- 资源 (1)
- 收藏
- 关注
原创 第15课:RDD创建内幕彻底解密
内容:1.RDD创建的几个方式2.RDD创建实战3.RDD内幕 第一个RDD:代表了Spark应用程序输入数据的来源通过Transformation来对RDD进行各种算子的转换实现算法RDD的3种基本的创建方式1,使用程序中的集合创建RDD;2,使用本地文件系统创建RDD;3,使用HDS创建RDD其他:4,基于DB创建RDD5,基于NoSQL,例如HBase6,基于S3创建RDD7,基于数据流创建...
2018-05-13 17:32:08 399
转载 spark算子:滑动窗口函数reduceByKeyAndWindow的使用
1.reduceByKeyAndWindow这个算子也是lazy的,它用来计算一个区间里面的数据,如下图:截图自官网,例如每个方块代表5秒钟,上面的虚线框住的是3个窗口就是15秒钟,这里的15秒钟就是窗口的长度,其中虚线到实线移动了2个方块表示10秒钟,这里的10秒钟就表示每隔10秒计算一次窗口长度的数据举个例子: 如下图我是这样理解的:如果这里是使用窗口函数计算wordcount 在第一个窗口(...
2018-05-07 09:14:59 5630
原创 第14课:spark RDD弹性表现和来源,容错
hadoop 的MapReduce是基于数据集的,位置感知,容错 负载均衡 基于数据集的处理:从物理存储上加载数据,然后操作数据,然后写入物理存储设备; 基于数据集的操作不适应的场景: 1,不适合于大量的迭代 2,交互式查询 重点是:基于数据流的方式 不能够复用曾经的结果或者中间计算结果; spark RDD是基于工作集的 工作流和工作集的共同特点:位置感知,自动容错,负载均衡等。 spark的位...
2018-05-06 16:14:37 2003
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人