数据湖技术之应用场景篇

原创已于 2024-01-28 21:52:20 修改 · 1.5k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

于 2024-01-28 21:40:12 首次发布

数据湖专栏收录该内容

5 篇文章

订阅专栏

本文介绍了数据湖技术如何解决在线数据抽取和Flink多流join中的痛点，如性能瓶颈、稳定性问题和维护成本。通过结合DDS和Hudi技术，实现链路稳定、效率提升和准确性保证，展示了数据湖技术在提升业务效能和降低成本方面的潜力。

数据湖技术有较多的应用场景，本篇文章是针对一些典型的痛点场景做了一些介绍和说明。比如说在线数据抽取场景原有模式对线上库表产生较大压力，flink多流join维护的大状态导致的稳定性问题等等，具体场景如下图所示：

场景1:在线数据抽取

业务一般会从线上mysql库表以离线方式抽取全量数据到hive表，供下游业务进行相关关联查询等处理，一般每天周期抽取数据后会放置到hive表的T+1分区上，整体流程如下图所示：

痛点总结：

每天全量查询，需要消耗较多资源，业务mysql库压力较大，性能受到影响。
业务抽取任务延迟太高，下游业务无法及时获取数据，无法按时产出业务数据。
分库分表，维护的离线任务较多，维护成本高，调整代价大。
各种因素影响，不够稳定，如果任务出现问题，整体重跑代价大，等待时间过长。

针对此场景的上述痛点问题，可以应用数据湖技术方案进行改造，改造后整体流程如下图所示：

可以看到结合数据湖方案可以准实时的进行入湖，下游进行抽取数据时基本没有太明显的性能瓶颈问题。整体优化可以总结为如下几点：

链路更加稳定，不用去全量读取数据访问线上mysql库表，直接通过dds服务拉取binlog数据，减少线上库集群压力。
效率提升，直接访问湖表，延迟较低，提升数据时效性。
大大降低维护成本，只需要维护较少离线任务，调整代价小。
业务扩展：一份存储多种用途，方便扩展到准实时场景。

场景2:部分列更新

原有的flink多流实时join场景，如下图所示，一般的处理模式是针对多流的数据在一定的时间窗口内关联state进行join，最终产出结果输送到下游进行处理。本身存在一些痛点，多个指标数据进行关联，不同指标数据可能会出现时间差比较大的异常情况。维持大的状态不仅会给内存带来的一定的压力，同时 Checkpoint 和 Restore 的时间会变得更长，可能会导致任务背压。