数据湖的优点
-
提供不限数据类型的存储
-
开发人员和数据科学家可以快速动态建立数据模型、构建应用、查询数据,非常灵活。
-
因为数据湖没有固定的结构,所以更易于访问
-
长期存储数据的成本低廉,数据湖可以安装在低成本的硬件在,例如:
在一般的X86机器上部署Hadoop
-
因为数据湖是非常灵活的,它允许使用多种不同的处理、分析方式来让数据发挥价值,例如:数据分析、实时分析、机器学习以及SQL查询都可以。
Data Lake VS Data warehouse
数据湖和数据仓库是用于存储大数据的两种不同策略,最大区别是:数据仓库是提前设计好模式(schema)的,因为数据仓库中存储的都是结构化数据。而在数据湖中,不一定是这样的。数据湖中可以存储结构化和非结构化的数据,是无法预先定义好结构的。
我们来进一步进行对比:
数据模式
数据仓库在数据写入之前就要定义好模式(schema),例如:我们会先建立模型、建立表结构,然后导入数据。我们可以把它称之为writ