datax 数据写入oracle报错缺失表达式_实战再次升级:流批一体处理百亿级别数据...

最新推荐文章于 2022-12-09 17:24:32 发布

Master ji

最新推荐文章于 2022-12-09 17:24:32 发布

阅读量357

点赞数

文章标签： datax 数据写入oracle报错缺失表达式

本文链接：https://blog.csdn.net/weixin_42403100/article/details/112113312

版权

需求背景

该篇内容基于之前写过的一篇<>，上一篇文章其实主要重点是结合logstash的实际应用。近期业务方提出了新的需求，增加了些业务逻辑，同时数据量也成倍增加，要求每日产出指标结果，这里再回顾下上篇的数据情况和技术方案同时对比下新调整后的数据量

端	调整前数据量	调整后数据量
生产端	每日20亿左右	每日500亿左右
输出端	减半，10亿左右	每日50亿+

考虑到投入产出比，该需求仍然采用来原来老的技术方案设计，只是做了些优化手段。具体使用到的技术：Java,Kafka,MLSQL,Logstash,Ruby,Hive,ES，SparkSQL,Datax「注意：这里均是实际的业务场景和实际的数据量，本文以分享为目的，如果读者有更好的方案，欢迎一起交流」

方案设计

「1.数据流向」流程：
1.业务方将数据推送至MQ,并将消息进行序列化处理
2.通过流平台接入消费消息，并进行一部分逻辑处理，再次回转到MQ中
3.使用logstash消费消息，编写ruby进行逻辑处理，将数据写入hdfs
4.数仓对hdfs文件进行加载入表，进行建模处理
5.最后将指标结果写入到业务方，以es存储
阅读过上

最低0.47元/天解锁文章

Master ji

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
datax 数据写入oracle报错缺失表达式_实战再次升级:流批一体处理百亿级别数据...

需求背景该篇内容基于之前写过的一篇<>，上一篇文章其实主要重点是结合logstash的实际应用。近期业务方提出了新的需求，增加了些业务逻辑，同时数据量也成倍增加，要求每日产出指标结果，这里再回顾下上篇的数据情况和技术方案同时对比下新调整后的数据量端调整前数据量调整后数据量生产端每日20亿左右每日500亿左右输出端减半，10亿左右每日50亿+考虑到投入产出比，该需求仍然采用来原...
复制链接

扫一扫