浅谈数据湖

最近听到很多数据湖/数据治理的言论,所以我想冒头说两句,有理解不到位的前来指教。
我个人认为数据湖更像是数仓里STG缓冲层的升级升级升级版,区别则是数据湖来者不拒(不论是小鱼小虾、小日子的XXX等等),且与业务解耦。数据一旦入湖则不被删除,长久存储,这样有利于针对数据挖掘,AI训练等等场景进行数据支撑,换句话说它的作用更像是一句老话”一方水土养一方人“,数据种类越多、质量越好(营养越丰富,周边环境越好、人长得越美、气候也更好等等)。但是如何提升数据湖的营养成分以至于最终提升上层应用的质量,就需要一套完善的数据治理体系,我认为数据湖与数据仓库的数据治理本质的区别就是:数仓是事后治理,数据湖反之。
接下来我想说说关于数据湖的技术体系,所谓数据湖,前有潺潺流水将新鲜的水资源流入湖内,后有过滤设施,将各类有用数据进行输出加以应用。那么其他数据入湖后日积月累进行沉淀,这种数据按照地理知识理解,则为沉淀物分层沉积。在日后对沉积物进行挖掘时,我们能沟通对每一层沉积物进行分析的到更有用的分析数据。那么我们用技术语言解读一下,潺潺流水进入湖泊则为采集实时数据(Flink-CDC/canal等等CDC工具);过滤设施则为按业务需求抽取并加工为应用提供数据支撑(如Flink等进行数据实时加工并输出);沉积物分层则为数仓分层,日后对每一层沉积物进行分析挖掘,则可以发掘其历史价值及预测。
最后,数据湖的根本价值是什么呢,我理解,使用廉价且极易扩充的存储资源,存储更加多元的数据,随用随取,事前治理,事后应用。真正可以摆脱业务的束缚。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值