Flink双流Join数据重复问题如何解决？

长处四肢

于 2023-12-27 01:00:00 发布

阅读量470

点赞数 3

文章标签： flink 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/luke991127/article/details/135227942

版权

Flink双流Join数据重复问题如何解决？

使用 Interval Join

左流和右流会在 interval 时间之内相互等待，如果等到了则输出数据；

如果等不到，并且另一条流的时间已经推进到当前这条数据在也不可能 join 到另一条流的数据时，则直接输出。
下游进行数据去重

一、利用状态去重
计算每个广告每小时的点击用户数，广告点击日志包含：广告位ID、用户设备ID、点击时间。

（1）实现步骤：
- 为了当天的数据可重现，这里选择事件时间也就是广告点击时间作为每小时的窗口期划分
- 数据分组使用广告位ID+点击事件所属的小时
- 选择processFunction来实现，一个状态用来保存数据、另外一个状态用来保存对应的数据量
- 计算完成之后的数据清理，按照时间进度注册定时器清理
二、利用Flink Sql进行去重

三、利用HyperLogLog进行去重（或者布隆过滤器,Flink-sql注册udaf函数）

关于HyperLogLog算法原理可以参考：https://www.jianshu.com/p/55defda6dcd2

四、利用HyperLogLog进行去重（优化版本）

在HyperLogLog去重实现中，如果要求误差在0.001以内，

最低0.47元/天解锁文章

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Flink双流Join数据重复问题如何解决？

优化方式是：初始HyperLogLog内部使用存储是一个set集合，当set大小达到了指定大小(1048576)就转换为HyperLogLog存储方式。如果等不到，并且另一条流的时间已经推进到当前这条数据在也不可能 join 到另一条流的数据时，则直接输出。也就是会消耗4M的存储空间，但是在实际使用中有很多的维度的统计是达不到这个数据量，那么可以在这里做一个优化。在前面提到的精确去重方案都是会保存全量的数据，但是这种方式是以牺牲存储为代价的，计算完成之后的数据清理，按照时间进度注册定时器清理。
复制链接

扫一扫

长处四肢 CSDN认证博客专家 CSDN认证企业博客

码龄3年

11: 原创

135万+: 周排名

27万+: 总排名

4462: 访问

: 等级

137: 积分

26: 粉丝

25: 获赞

6: 评论

26: 收藏

私信

关注

热门文章

分类专栏

FLink 1篇

最新评论

Spark-RDD 简单总结
CSDN-Ada助手: 恭喜你写了第6篇博客！标题“Spark-RDD 简单总结”让我期待不已。你的持续创作令人佩服，而且这篇博客内容也非常有价值。如果可能的话，我建议你可以考虑在下一篇博客中探讨一下Spark-RDD的高级用法，这样我们就能更全面地了解这个主题。谢谢你的努力，期待你未来的创作！
行为数据——漏斗模型分析
CSDN-Ada助手: 恭喜您在博客领域持续创作，第11篇博客“行为数据——漏斗模型分析”内容丰富，对于数据分析领域的探索和分享给予了很好的启发。在下一步的创作中，或许可以考虑结合具体案例或者实际数据进行深入分析，让读者更加直观地理解漏斗模型分析的实际应用。希望您能继续保持创作的热情，不断提升自己的写作水平，期待您更多精彩的分享！
Flink双流Join数据重复问题如何解决？
CSDN-Ada助手: 恭喜作者能够持续创作，这篇关于Flink双流Join数据重复问题的博客内容非常有价值。对于解决这个问题，我想建议作者可以在下一篇博客中分享一些具体的案例分析或者实际操作经验，这样更能帮助读者理解和应用相关知识。希望作者能够继续分享更多有价值的内容，期待您的下一篇作品！
基础变声导论——个人学习用
CSDN-Ada助手: 恭喜您写了第7篇博客！看来您对基础变声有着深入的研究和学习。希望您能继续坚持创作，分享更多关于变声的知识和经验。下一步，可以考虑结合实际案例或者个人练习经历，向读者展示如何将基础变声理论运用到实际中。期待您的下一篇作品！祝您继续进步！
Flink全量聚合函数：apply和process这两种实现方法有什么区别？
CSDN-Ada助手: 恭喜你写了这么有深度的一篇博客！对于Flink全量聚合函数的apply和process两种实现方法进行了深入的探讨，让读者受益匪浅。希望你能继续保持创作的热情和耐心，接下来可以考虑结合实际案例进行分析，或者深入探讨Flink在大数据处理中的应用场景，这样会更加丰富你的博客内容。期待你更多的精彩分享！

大家在看

usbserver工程师手记(四）ft2usbhub服务启动不了 56

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。