设计思路:
事实表走kafka触发数据的流动,维表变化缓慢留在hbase。两边join得出结果,
存在的问题:
如果多个事实表走kafka,存在kafka中数据只保存七天的,有超时数据关联不上的问题。但是如果一个事实表在kakfa,一个事实表在hbase,实际上hbase中的数据依然是流写入的,依然会有数据晚到的问题,kafka中的数据关联不到hbase事实数据,没有补偿机制就不行。只能实时计算出来不太准的结果,等T+1的批数据跑完了再用离线回灌掉这个不太准的数据。
思考:
Flink的计算不如用单一事实表关联变化缓慢的hbase维表,得出来的数据insert into到hbase这样的事实表(有rowkey能保证唯一)。两张高频变化事实表的join是不是不太适合,把一张事实表关联维表的临时逻辑入湖,多张临时的这种表在湖内准实时组装起来
POM文件
<!--
Licensed to the Apache Software Foundation (ASF) under one
or more contributor license agreements. See the NOTICE file
distributed with this work for additional information
regarding copyright ownership. The ASF licenses this file
to you under the Apache License, Version 2.0 (the
"License"); you may not u