- 博客(4)
- 收藏
- 关注
原创 spark structured streaming
引用Spark commiter(gatorsmile)的话:“从Spark-2.X版本后,Spark streaming就进入维护模式,Spark streaming是低阶API,给码农用的,各种坑;Structured streaming是给人设计的API,简单易用。由于太忙,所以一直没有在官方文档上 更新说明信息” Unbounded没有边界的表 每一条记录是个wor...
2018-11-06 15:11:48 356
原创 基于spark streaming的流数据处理和分析
Stream context 相当于spark context 做实时处理就得用到 setup之后如果close你需要重新创建一个,重启是不行的 词频统计,stream context ssc.start()执行之后,上面代码段才会执行 一系列不停的RDD Receives接收器 创建多个receivers 你需要 在c...
2018-11-06 14:56:15 2296
原创 Oozie的应用
oozie的特点 工作流管理工具 可以轻量级, 再提交端要求轻量级 提交job会返回jobid 做一个例子 Step 1: Download the Oozie tarball Wget http://archive.apache.org/dist/oozie/4.2.0/oozie-4.2.0.tar.gz Step 2: Unpack the tarball ...
2018-11-06 14:40:02 533
原创 oozie简单应用
前言: 因为工作需要用到oozie,但是晚上的资料确实越看越迷茫,经过很大的努力,终于折腾清楚了,这里,做一个总结,帮助后来者更好地进行入门,当然,粗鄙之言,难免疏漏,欢迎交流指正 引入: 对于我们的工作,可能需要好几个hadoop作业(job)来协作完成,往往一个job的输出会被当做另一个job的输入来使用,这个时候就涉及到了数据流的处理。 ...
2018-11-04 11:08:48 835
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人