一步一个脚印,一天一道面试题。
今天来聊一聊 数据湖(Data Lake),聊一门技术之前,需要先聊聊这么技术诞生背景是什么,一门技术或概念的诞生往往是为了解决一些之前技术解决不好的问题。
数据湖诞生背景
随着互联网的越来越发达,网页,手机APP,物联网 IOT,等数据量爆炸增长。,对应有各种不同的数据结构(大量半结构化和非结构化数据,如文本、图像、视频等)。而且商业竞争需要灵活,快速,多变。而,此时需要各种预处理(ETL,设计表结构,层级间处理)的数据仓库难以应对。
数据湖定义
数据湖(Data Lake) 是一种集中存储企业所有 原始数据的体系结构,它允许数据以原始、未经过加工的格式被收集并存储。这种存储方式通常不预先定义数据的结构,而是保留数据的原始形态,包括结构化数据(如关系数据库中的表格数据)、半结构化数据(如CSV、日志文件、XML、JSON)和非结构化数据(如文本文件、图像、音频、视频等)。数据湖的核心价值在于它提供了一个灵活的环境,让企业能够在需要时对数据进行分析、处理和转化,适应各种不同的业务需求和分析场景。
简单来说,数据仓库存数据需要设计很多的东西(ETL,表结构,各层级间的处理等),数据湖是什么都不管,原始数据先往里面放了再说,主打一个灵活,快速。
数据湖与数据仓库:各有千秋
如果把数据比作食材,数据湖就像是一个丰富的菜市场,新鲜、多样,适合大厨(数据科学家)自由发挥,创造新菜谱(发现新洞察);而数据仓库则是高级餐厅的厨房,食材(数据)经过精心挑选和预处理,确保每一道菜(报告、分析结果)都能准时且高质量地上桌。
我是近未来,祝你变得更强!