根据维基百科对数据湖的定义:数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统,它按原样存储数据,无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。
在实际的业务应用中,数据湖作为一个集中式存储库,它以更低的存储成本,更方便的方式解决不同类型数据统一存储的问题,同时还能够为机器学习提供全局数据。
数据湖与数据仓库的区别
小编拿数据湖和被熟知的数据仓库在功能特性上做了对比,为了大家更好的理解数据湖的应用。
特性 |
数据仓库 |
数据湖 |
数据类型 |