（60）.双流合并实现

最新推荐文章于 2024-04-28 17:54:04 发布

大数据开发工程师-宋权

最新推荐文章于 2024-04-28 17:54:04 发布

阅读量287

点赞数

分类专栏：实时数仓文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/song_quan_/article/details/119206827

版权

实时数仓专栏收录该内容

43 篇文章 10 订阅

订阅专栏

除了事实表与维表进行合并形成宽表，还需要事实表与事实表进行合并形成更大的宽表。

3.1 双流合并的问题

由于订单流和订单明细流，两个流的数据是独立保存，独立消费，很有可能同一业务的

数据，分布在不同的批次。因为 join 算子只 join 同一批次的数据。如果只用简单的 join 流

方式，会丢失掉不同批次的数据。

3.2 解决策略

3.2.1 通过缓存

➢ 思路

两个流做满外连接因为网络延迟等关系，不能保证每个窗口中的数据 key 都能匹配上，

这样势必会出现三种情况：(Some,Some)，

(None,Some)，

(Some,None),根据这三种情

况，下面做一下详细解析：

◼ (Some，Some)

1 号流和 2 号流中 key 能正常进行逻辑运算，但是考虑到 2 号流后续可能会有剩下的

数据到来，所以需要将 1 号流中的 key 保存到 redis，以等待接下来的数据

◼ (None,Some)

找不到 1 号流中对应 key 的数据，需要去 redis 中查找 1 号流的缓存，如果找不到，

则缓存起来，等待 1 号流

◼ (Some,None)

找不到 2 号流中的数据，需要将 key 保存到 redis，以等待接下来的数据，并且去 reids

中找 2 号流的缓存，如果有，则 join，然后删除 2 号流的缓存

➢

优点

不会造成数据重复

➢

缺点

缓存处理代码编写复杂，尤其是流 join 比较多的情况。

3.2.2 通过滑动窗口+数据去重

➢

优点

处理代码相对简单

➢

缺点

会造成数据重复，需要对重复数据进行处理

注意：必须是滑动窗口，如果是滚动的话，也没有解决 join 问题。

3.3 双流 Join 处理代码

➢ 创建 OrderWide 样例类，用于封装订单以及订单明细信息

➢ 在 OrderWideApp 里面添加

大数据开发工程师-宋权

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
（60）.双流合并实现

除了事实表与维表进行合并形成宽表，还需要事实表与事实表进行合并形成更大的宽表。 3.1 双流合并的问题由于订单流和订单明细流，两个流的数据是独立保存，独立消费，很有可能同一业务的数据，分布在不同的批次。因为 join 算子只 join 同一批次的数据。如果只用简单的 join 流方式，会丢失掉不同批次的数据。3.2 解决策略 3.2.1 通过缓存➢ 思路两个流做满外连接因为网络延迟等关系，不能保证每个窗口中的数据 key 都能匹配上，这样势必会出现三.
复制链接

扫一扫

专栏目录

大数据开发工程师-宋权 CSDN认证博客专家 CSDN认证企业博客

码龄9年

308: 原创

4万+: 周排名

41万+: 总排名

27万+: 访问

: 等级

3608: 积分

205: 粉丝

99: 获赞

68: 评论

536: 收藏

私信

关注

热门文章

分类专栏

最新评论

Flink CDC数据同步
m0_61571350: 用流过去到了，可以直接计算吗？如果监控到更新或者删除的，要单独处理吗？直接会不会影响指标
FineBI产品简介
永久青铜: 我怎么没有你这个仪表板的样式
FineBI概述
Devil I'm: HAHA CIO
Sql Server CDC配置
爱吃冰的猫: 难道我有20个cdc表发生变动后只能逐个重新开启？这显然不符合实际使用啊
使用Flume消费Kafka数据到HDFS (亲测好用)
天地风雷水火山泽: 按照博客的启动命名执行后，这个flume停不下来，会自行启动？一旦ctrl+C退出后，它不久就会自行启动，这个怎么关闭？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大数据开发工程师-宋权 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。