flink sql在实时数仓中,关联hbase维表频繁变化的问题

2 篇文章 0 订阅
2 篇文章 9 订阅

在用flink sql在做实时数仓,架构大概是kafka关联hbase维表,然后写入clickhouse。hbase维表是频繁变化的

现在遇到的几个比较棘手的问题:

  • 1、自己在实现AsyncTableFunction做异步io的时候,发现性能还是不够。后来就加入本地缓存,但是缓存一致性出现问题,不知道该如何解决
  • 2、写入hbase的时候,是批量写的,无法保证有序,维表频繁变化的话,顺序不对,会造成结果有问题
  • 3、hbase维表,可能5s后才会更新,但是此时kafka数据流已经过去了,关联的数据都是空

不知道,针对上面的场景,有什么好的解决思路或者方案?

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论
Flink关联Hbase维表的实现思路是利用Flink的RichAsyncFunction读取Hbase的数据到缓存,并在关联维度表时先查询缓存,如果缓存不存在这条数据,则利用Hbase客户端去查询Hbase,并将查询结果插入到缓存。\[1\] 首先,我们需要引入Hbase的异步客户端依赖,例如asynchbase 1.8.2版本。\[2\] 在Flink流式计算,维度属性一般存储在MySQL/HBase/Redis等数据库,这些维表数据需要根据业务进行关联。根据业务对维表数据关联的时效性要求,可以采用以下几种解决方案: 1. 定时更新:定期从Hbase读取维表数据,并将其加载到Flink的缓存,以保持数据的最新性。 2. 异步查询:在关联维表时,先查询Flink的缓存,如果缓存不存在,则异步地从Hbase查询数据,并将查询结果插入到缓存,以提高查询效率。 3. 增量更新:当维表数据发生变化时,只更新变化的部分数据,而不是全量更新,以减少数据的传输和处理开销。 以上是关联Hbase维表的一些实现思路和解决方案。具体的实现方式可以根据业务需求和系统架构进行选择和调整。 #### 引用[.reference_title] - *1* *2* *3* [轻松通关Flink第19讲:Flink 如何做维表关联](https://blog.csdn.net/sucaiwa/article/details/129808043)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

雾岛与鲸

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值