datax 数据写入oracle报错缺失表达式_实战再次升级:流批一体处理百亿级别数据...

需求背景

该篇内容基于之前写过的一篇<>,上一篇文章其实主要重点是结合logstash的实际应用。近期业务方提出了新的需求,增加了些业务逻辑,同时数据量也成倍增加,要求每日产出指标结果,这里再回顾下上篇的数据情况和技术方案同时对比下新调整后的数据量

调整前数据量 调整后数据量
生产端 每日20亿左右 每日500亿左右
输出端 减半,10亿左右 每日50亿+

考虑到投入产出比,该需求仍然采用来原来老的技术方案设计,只是做了些优化手段。具体使用到的技术:Java,Kafka,MLSQL,Logstash,Ruby,Hive,ES,SparkSQL,Datax「注意:这里均是实际的业务场景和实际的数据量,本文以分享为目的,如果读者有更好的方案,欢迎一起交流」

方案设计

「1.数据流向」3d6d635c70052797ad87d7648b400d48.png流程:
  1.业务方将数据推送至MQ,并将消息进行序列化处理
  2.通过流平台接入消费消息,并进行一部分逻辑处理,再次回转到MQ中
  3.使用logstash消费消息,编写ruby进行逻辑处理,将数据写入hdfs
  4.数仓对hdfs文件进行加载入表,进行建模处理
  5.最后将指标结果写入到业务方,以es存储
阅读过上

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值