自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

挖矿的小强的博客

我失败过,但我从未放弃过

  • 博客(3)
  • 资源 (1)
  • 收藏
  • 关注

原创 第15课:RDD创建内幕彻底解密

内容:1.RDD创建的几个方式2.RDD创建实战3.RDD内幕 第一个RDD:代表了Spark应用程序输入数据的来源通过Transformation来对RDD进行各种算子的转换实现算法RDD的3种基本的创建方式1,使用程序中的集合创建RDD;2,使用本地文件系统创建RDD;3,使用HDS创建RDD其他:4,基于DB创建RDD5,基于NoSQL,例如HBase6,基于S3创建RDD7,基于数据流创建...

2018-05-13 17:32:08 399

转载 spark算子:滑动窗口函数reduceByKeyAndWindow的使用

1.reduceByKeyAndWindow这个算子也是lazy的,它用来计算一个区间里面的数据,如下图:截图自官网,例如每个方块代表5秒钟,上面的虚线框住的是3个窗口就是15秒钟,这里的15秒钟就是窗口的长度,其中虚线到实线移动了2个方块表示10秒钟,这里的10秒钟就表示每隔10秒计算一次窗口长度的数据举个例子: 如下图我是这样理解的:如果这里是使用窗口函数计算wordcount 在第一个窗口(...

2018-05-07 09:14:59 5630

原创 第14课:spark RDD弹性表现和来源,容错

hadoop 的MapReduce是基于数据集的,位置感知,容错 负载均衡 基于数据集的处理:从物理存储上加载数据,然后操作数据,然后写入物理存储设备; 基于数据集的操作不适应的场景: 1,不适合于大量的迭代 2,交互式查询 重点是:基于数据流的方式 不能够复用曾经的结果或者中间计算结果; spark RDD是基于工作集的 工作流和工作集的共同特点:位置感知,自动容错,负载均衡等。 spark的位...

2018-05-06 16:14:37 2003

mysql数据表直接生成word文档数据字典

mysql数据表直接生成word文档数据字典,只需修改账号密码等信息,导入idea后可以直接使用,不需要其他条件

2019-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除