自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 spark structured streaming

         引用Spark commiter(gatorsmile)的话:“从Spark-2.X版本后,Spark streaming就进入维护模式,Spark streaming是低阶API,给码农用的,各种坑;Structured streaming是给人设计的API,简单易用。由于太忙,所以一直没有在官方文档上 更新说明信息” Unbounded没有边界的表 每一条记录是个wor...

2018-11-06 15:11:48 356

原创 基于spark streaming的流数据处理和分析

Stream context 相当于spark context 做实时处理就得用到   setup之后如果close你需要重新创建一个,重启是不行的     词频统计,stream context ssc.start()执行之后,上面代码段才会执行   一系列不停的RDD     Receives接收器     创建多个receivers 你需要 在c...

2018-11-06 14:56:15 2296

原创 Oozie的应用

  oozie的特点 工作流管理工具 可以轻量级, 再提交端要求轻量级 提交job会返回jobid   做一个例子   Step 1: Download the Oozie tarball Wget http://archive.apache.org/dist/oozie/4.2.0/oozie-4.2.0.tar.gz Step 2: Unpack the tarball ...

2018-11-06 14:40:02 533

原创 oozie简单应用

前言:        因为工作需要用到oozie,但是晚上的资料确实越看越迷茫,经过很大的努力,终于折腾清楚了,这里,做一个总结,帮助后来者更好地进行入门,当然,粗鄙之言,难免疏漏,欢迎交流指正   引入:        对于我们的工作,可能需要好几个hadoop作业(job)来协作完成,往往一个job的输出会被当做另一个job的输入来使用,这个时候就涉及到了数据流的处理。       ...

2018-11-04 11:08:48 835

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除