Flink Sql双流join-回撤机制导致数据重复

40 篇文章 22 订阅 ¥19.90 ¥99.00
11 篇文章 1 订阅
5 篇文章 2 订阅

数据源:kafka topic数据类型为json

业务场景:解析json,由于数据层级比较深,而且包含数组,此处键值可能为空

所以数据就变成了双流join,甚至是多流join。

问题原因:采用left join导致数据回撤,然后同一个主键数据产生重复

是采用inner join 还是 outer join,具体区别见  Flink Sql教程(5)_狄杰的博客-CSDN博客_connector.startup-mode

Flink Sql on Zeppelin(5)——双流Join_狄杰的博客-CSDN博客 

由于此处关联可能存在键值为空匹配不到的情况,采用了很多left join,避免数据丢失的问题。

数据调试过程比较复杂,中间加了若干个db sink,来检查中间结果。

数据最终是sink到kafka的,kafka sink 和db sink有个很大的差异,db sink可以兼容retract机制,数在mysql中

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

mtj66

看心情

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值