数据湖、数据集市、数据仓库
每个应用程序会产生、存储大量数据,而这些数据并不能被其他应用程序使用,这种状况导致数据孤岛的产生。
数据湖
是一个存储企业的各种各样原始数据的大型仓库。
存储所有类型的数据,如结构化数据,非结构化数据,半结构化数据等,数据的类型依赖于数据源系统的原始数据格式。
数据湖通常包含更多的相关的信息,这些信息有很高概率会被访问,并且能够为企业挖掘新的运营需求。
数据仓库
只能对结构化数据进行处理,而且这些数据必须与数据仓库事先定义的模型吻合。
处理结构化数据,将它们或者转化为多维数据,或者转换为报表,以满足后续的高级报表及数据分析需求。
数据湖与数据仓库的差别很明显。然而,在企业中两者的作用是互补的,不应认为数据湖的出现是为了取代数据仓库,毕竟两者的作用是截然不同的。
数据仓库与数据集市
数据仓库中数据结构采用的规范化模式,三范式(关系数据库设计理论)是面向企业(数据粒度,最细的粒度)
数据集市的数据结构采用的星型模式,雪花模型、两者混合(多维数据库设计理论)是面相部门(数据粒度,较粗的粒度)