Pentaho的CTO James Dixon在2010年创造了“数据湖”这个术语,并将其定义如下:“如果你把数据集市看作一个瓶装水的储存——清洁、包装和结构化以便于消费。将这个术语的数据版本和数据湖流的内容从源头转换为填充湖泊,并且该湖的各种用户可以前来检查、潜水或取样。”
《福布斯》杂志将数据湖与数据仓库相比定义为:“数据湖与数据仓库的区别在于数据仓库中的数据在输入点被预先分类,这可以决定如何对其进行分析。”
Gartner将数据湖定义为“作为企业级数据管理平台进行营销,用于以原生格式分析不同的数据源”。
数据湖与数据仓库一样,是一套系统解决方案,数据湖的建设是从数据的角度出发进行数据展现、分析、挖掘。进而解决业务痛点。数据湖囊括了各种各样的规模化数据,可帮助用户快速就绪新增业务流程。同时各业务系统数据彼此关联分析更能发现新的数据价值,为企业增加数据资产。
数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。数据湖的主要应用是对企业中的所有数据进行统一存储,从原始数据(这意味着源系统数据的精确副本)转换为用于报告、可视化、分析和机器学习等各种任务的转换数据。湖中的数据包括结构化数据从关系数据库(行和列),半结构化数据(CSV、XML、JSON 的日志),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像、音频、视频)从而形成一个集中式数据存储容纳所有形式的数据。
让我们先看看开源hadoop平台上的数据库都有哪些?如何更好地选择和使用这些数据库?
1、Hive数据库,批量分析处理的最佳选择。
Hive是