自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 StructedStreaming Excalty-onece的优越性

(1)数据在从kafka出来的时候,每一条数据对应的offsets会写到wal,将对应的offset写入到文件一旦程序挂掉,从wal offset log里面恢复最新的数据,(2)structed streaming的state store机制对于excatly-once的作用首先会维护一个result table在内存中,这里面只存结果数据(比如聚合好的数据),当作数据恢复时,...

2019-04-15 15:54:43 289 2

原创 StructedStreaming总结

1.首先会有一个rawtable 和resultTableresultTable会存着聚合或者join时的中间结果值,每run一次batch,首先根据watermark判断resulttable 里面哪些结果数据应该清除掉,2.window与watermark当一个window被trigger时,会生成一个result,这个result会马上sink到db里面,假如window最终...

2019-02-17 21:38:50 704

原创 hdfs提交多个表出现的问题

当提交多个表,自己认为串行执行时,实际上集群也为所有的表分配了资源,进而占用大量的资源,其主要原因为yarn资源的公平分配, 通过调整excutor-number来限制内存,同时也会出现内存爆掉的情况,提高excutors-memory 值即可 ...

2018-12-25 10:14:16 118

原创 关于common framework做的时候出现的问题

1.自己负责的任务一定要保证质量2.做归一化的处理比较重要3.Oracle本身数据不能实现分布式的读取,因此可以考虑使用多线程的方式去读取数据4.将数据归一化成字符串类型后,对后期的处理非常有用5.rdd dataFrame list之间的相互转换(1)add new value of one columndataFrame.map(row=>Row.fromSeq(...

2018-12-25 10:13:41 373

原创 异常检测系统的相关总结

1.rawData部分的总结(1)行转列sum(case when  condition then 0 else 1)row number(order by a,b,c)(2)common 部分traing:rawData=>traning=>save to hdfs monthlypredict:rawData=>featureData=>pred...

2018-12-25 10:12:33 476

原创 suport公司的大数据平台遇到的问题及解决方案总结

1.nohup日志文件中打印schema时,只有一个root?答:打印schema时,若只有一个root单词,说明过滤的时候有问题(很有可能将数据全部过滤掉了)。当时我出现的问题是,application.conf文件中,filter.string这个配置出现大小写的问题。2.数据量比较少(大概比标准的要少1000来行)答:在建表的时候多指定几个primary key3.日志中出现...

2018-12-20 10:11:41 240

原创 spark使用db(Oracle,hive)的一些注意事项

1.在spark 2中saveAsTable 时,要先spark.sql("use telemetry"),并且在save之前这个表一定不存在否则会报save的类型不一致这个exception2.spark在load比较大的表时,直接load会出现卡死的情况,因此可以通过多线程,分成多个时间段,每个时间段起一个线程来load数据3.spark在使用Oracle JDBC执行Oracle...

2018-12-20 10:11:19 196

原创 structed streaming输出模式

structed streaming会维护一个result table,每次trigger以后对里面的数据做改变,改变包括更新旧的数据以及添加新的数据假如sql没有做聚合,那么result table 的改变只有添加假如sql做了聚合,那么result table包括添加和更新旧的数据outputModecomplete:把整个result table输出到外部存储appe...

2018-12-20 10:01:31 649

原创 structed streaming 源码分析

1.load的源码分析 load=>lookupDataSource说白了就是构造logic plan 以及为每一个logic 生成df,一定要注意此时所有df中没有数据2.structed streaming为什么可以实现增量导入主要是因为会维护一个state,这个state就是用来存最新的update的结果,此时我们假如去做group by 那么后面的都相当于key...

2018-12-14 16:15:21 243

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除