基于kafka和sparkstreaming的实时数据处理系统
目前处理的数据主要是文本数据,挖掘处理也是nlp和一些统计分析的处理,但是采用的流处理的系统框架应该是通用的。体统分为实时部分和H/T+1部分,数据流架构图如下:实时部分开发时考虑的几个主要问题spark streaming和spark structured streaming的选择 手动实现spark streaming和zk之间的offset同步和交互,保证exactly...
原创
2018-04-13 12:01:48 ·
1035 阅读 ·
0 评论