“ 对许多企业来说,数据变得越来越重要,数据的重要性在多个方面得到了凸显。事实上,企业正在用核心数据来改善自己的运营。为了利用数据,企业需要能存储海量数据的“仓库”,随着数据类型的不断丰富,一些半结构化、非结构化数据愈发重要,这些仓库不再被称为“数据仓库”,它们被称为“数据湖”。”
什么是数据湖?
数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象Blob或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。
数据湖的概念随着时间的推移在企业中不断演变,最初起源于数据仓库的概念。数据仓库包含长期积累的数据,并根据报表需求和历史需求以不同的方式存储。然后,数据集市的概念出现了,它提供企业属性相关的小数据集。数据湖从上述这些概念演变而来,成为企业的中心数据库,可以捕获原始数据,生成加工后的数据,提供最关键的企业信息。