2018年05月_挖矿的小强

12月 05月 04月 03月

原创第15课：RDD创建内幕彻底解密

内容：1.RDD创建的几个方式2.RDD创建实战3.RDD内幕第一个RDD：代表了Spark应用程序输入数据的来源通过Transformation来对RDD进行各种算子的转换实现算法RDD的3种基本的创建方式1，使用程序中的集合创建RDD;2，使用本地文件系统创建RDD；3，使用HDS创建RDD其他：4，基于DB创建RDD5，基于NoSQL,例如HBase6，基于S3创建RDD7，基于数据流创建...

2018-05-13 17:32:08 399

转载 spark算子：滑动窗口函数reduceByKeyAndWindow的使用

1.reduceByKeyAndWindow这个算子也是lazy的,它用来计算一个区间里面的数据,如下图:截图自官网,例如每个方块代表5秒钟,上面的虚线框住的是3个窗口就是15秒钟,这里的15秒钟就是窗口的长度,其中虚线到实线移动了2个方块表示10秒钟,这里的10秒钟就表示每隔10秒计算一次窗口长度的数据举个例子: 如下图我是这样理解的:如果这里是使用窗口函数计算wordcount 在第一个窗口(...

2018-05-07 09:14:59 5630

原创第14课：spark RDD弹性表现和来源，容错

hadoop 的MapReduce是基于数据集的,位置感知，容错负载均衡基于数据集的处理：从物理存储上加载数据，然后操作数据，然后写入物理存储设备；基于数据集的操作不适应的场景： 1，不适合于大量的迭代 2，交互式查询重点是：基于数据流的方式不能够复用曾经的结果或者中间计算结果; spark RDD是基于工作集的工作流和工作集的共同特点：位置感知，自动容错，负载均衡等。 spark的位...

2018-05-06 16:14:37 2003

mysql数据表直接生成word文档数据字典

mysql数据表直接生成word文档数据字典，只需修改账号密码等信息，导入idea后可以直接使用，不需要其他条件

2019-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人