一、数据仓库与数据湖的区别
一是存储数据类型不同。数据仓库中存储的主要是结构化数据,对于加载到数据仓库中的数据,首先需要定义数据存储模型。而数据湖以其原生格式保存大量原始数据,包括结构化的、半结构化的和非结构化的数据,并且在使用数据之前,不对数据结构进行定义。
二是数据处理模式不同。数据仓库是高度结构化的架构,数据在清洗转换之后才会加载到数据仓库,用户获得的是处理后数据。而在数据湖中,数据直接加载到数据湖中,然后根据分析的需要再处理数据。
三是服务对象不同。从用户差异上来看,数据仓库适合企业中大数据产品开发人员和业务用户。而数据湖最适合数据分析师或数据科学家,他们直接基于数据沙箱做自由探索和分析,这些人要求有技术背景,会写代码或熟悉SQL。
二、为何选择数据湖
-
随着存储引擎的出现,Hadoop让存储不同的信息变得更加容易。需要使用数据湖将数据建模到企业范围的模式中。
-
随着数据量,数据质量和元数据的增加,分析质量也会提高。
-
数据湖提供业务敏捷性。
-
算法可用于进行有利可图的预测。
-
没有数据孤岛结构。Data Lake提供360度的客户视图,使分析更加健壮。
三、数据胡架构
下图显示了Business Data Lake的体系结构。较低级别表示大部分处于静止状态的数据,而较高级别表示实时交易数据。