这周看了一篇关于数据集成的会议论文--《Quality Based Data Integration for Enriching User Data Sources in Service Lakes》,文中提到了“数据湖”的概念。遂在这里对数据湖进行相应的总结。
-
概念
“数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。”-------百度百科。
“数据湖是一个集中化存储海量的、多个来源,多种类型数据,并可以对数据进行快速加工,分析的平台,本质上是一套先进的企业数据架构。”-------网络上其他定义。
“传统的数据存储和分析工具不再能够提供实现相关业务见解所需的敏捷性和灵活性。因此,很多组织正在转为使用数据湖架构。数据湖是一种架构方法,让您可以将大量数据存储在一个集中位置,以便组织内的各个团队随时对其进行分类、处理、分析和使用。因为数据可以按原样存储,所以您无需将其转换为预定义结构,也不再需要预先了解您要询问的数据相关问题。”------亚马逊AWS官网。
-
数据湖特征:
1、 一个可以存储大数据的并行系统
2、可以在不需要另外移动数据的情况下进行数据计算
目前,Hadoop是最常用的部署数据湖的技术,所以很多人会觉得数据湖就是Hadoop集群。但未来总会有新的技术出现,因此我们要区分出Hadoop和数据湖的不同点。数据湖是一个概念,而Hadoop是用于实现这个概念的技术。
-
与数据仓库的区别
数据湖与数据仓库之间的异同点有很多,很容易混淆,但是最重要的区别有两个:
1、存储数据类型:数据仓库是存储数据,进行建模,存储的是结构化数据;数据湖以其本源格式保存大量原始数据,包括结构化的、半结构化的和非结构化的数据。在需要数据之前,没有定义数据结构和需求。
2、数据处理模式:在我们可以加载到数据仓库中的数据,我们首先需要定义好它,这叫做写时模式(Schema-On-Write)。而对于数据湖,您只需加载原始数据,然后,当您准备使用数据时,就给它一个定义,这叫做读时模式(Schema-On-Read)。这是两种截然不同的数据处理方法。因为数据湖是在数据到使用时再定义模型结构,因此提高了数据模型定义的灵活性,可满足更多不同上层业务的高效率分析诉求。
-
应用----华为数据湖解决方案
华为数据湖解决方案基于先进的云上系统架构,着力解决线下企业数字化转型中,数据无法驱动业务发展、成本高昂、计算存储等基础设施资源浪费等复杂问题。
参考文献地址:https://www.sohu.com/a/233217800_165716、https://aws.amazon.com/cn/big-data/data-lake-on-aws/