数据湖和Hudi

最新推荐文章于 2024-08-28 11:46:48 发布

hellosc01

最新推荐文章于 2024-08-28 11:46:48 发布

阅读量823

点赞数

分类专栏：大数据文章标签：数据湖 Hudi Hadoop spark

本文链接：https://blog.csdn.net/sc179/article/details/113842560

版权

大数据专栏收录该内容

9 篇文章 3 订阅

订阅专栏

1 数据湖

1.1 什么是数据湖？

是一个数据存储库，用来存储大量的原始数据；
是一种数据存储策略，并不与具体的某个技术框架关联，数据库、数据仓库也一样；
是专注于原始数据保真以及低成本长期存储的存储设计模式，相当于是对数据仓库的补充；
是用于长期存储数据容器的集合，通过数据湖可以大规模地捕获、加工、探索任何形式的原始数据；
通过使用一些低成本的技术，可以让下游设施更好地利用，下游设施包括像数据集市、数据仓库、机器学习模型等；

在这里插入图片描述

在这里插入图片描述
6. 数据仓库以分层的方式将数据存储在文件、文件夹中，而数据湖使用平面架构来存储数据；
7. 给每个数据元素分配唯一的标识符，并通过元数据标签来进行标注；
8. 数据湖越来越多用于描述任何的大型数据池，数据都是以原始数据方式存储，直到需要查询应用数据的时候才会开始分析数据需求和应用架构；当企业出现业务问题时，可以从数据湖中查询数据，然后分析业务对应的那一小部分数据集来解决业务问题；

1.2 数据湖的优点

提供不限数据类型的存储；
没有固定结构，所以更易于访问；
长期存储数据的成本低廉，数据湖可以安装在低成本硬件上，例如：在一般的X86机器上部署Hadoop；
非常灵活，允许使用多种处理、分析方式来让数据发挥价值，例如：数据分析、实时分析、机器学习以及SQL查询都可以；

1.3 数据湖 VS 数据仓库

1.3.1 本质区别

数据湖和数据仓库是存储大数据的两种不同策略；
最本质的区别是：数据仓库中存储的都是结构化数据，需要提前设计好模式（schema）；而数据湖可以存储结构化和非结构化的数据，无法预先定义好结构；

1.3.2 存储位置

数据仓库要有结构，大部分都是基于关系型模型；
而数据湖通常位于分布式存储如Hadoop或类似的大数据存储中；

在这里插入图片描述

1.3.3 数据源

数据仓库的数据很多时候是从OLTP应用的结构化数据库中提取的，用于支持内部的业务部门（销售、市场、运营等）进行业务分析；
数据湖的数据来源可以是结构化的，也可以是非结构化的，例如：业务系统数据库、IOT设备、社交媒体、移动APP等；

1.3.4 用户

数据仓库主要是对业务系统对大量业务数据进行统计分析，所以会应用数据分析的部门是数据仓库的主要用户，例如：销售部、市场部、运营部、总裁办等；
数据湖中的数据都是原始数据，是未经整理的，更适合数据科学家，通过应用模型、技术发掘数据中的价值，去解决企业中的业务问题；

1.3.5 数据质量

数据仓库非常重视数据质量，数据都是经过处理的，像数据中台有很大一块是数据质量管理、数据资产管理等；
数据湖中等数据可靠性较差，这些数据可能是任意状态、任意形态的数据；

1.3.6 数据模式

数据仓库在数据写入前就要定义好模式（schema），例如：先建立模型、建立表结构，然后导入数据，我们称之为write-schema；
数据湖中的数据没有没有模式，直到用户要访问数据、使用数据才会建立schema，我们称之为read-schema；

在这里插入图片描述

1.3.7 敏捷扩展性

数据仓库的模式一旦建立，如果重新调整模式，往往代价很大，牵一发而动全身，所有相关的ETL程序可能都需要调整；
而数据湖非常灵活，可以根据需要重新配置结构或者模式；

1.3.8 应用

数据仓库一般用于做批处理报告、BI、可视化等；
数据湖主要用于机器学习、预测分析、数据探索和分析；

1.4 数据湖的构建

数据湖是一种用于数据存储的设计模式，但数据最终需要一种介质存储下来，我们可以使用Hadoop作为数据湖的物理存储引擎，或者使用AWS的S3作为存储引擎等；
架构数据湖时要注意的几点原则：1、可以加载各种源系统中的数据并存储；2、任意类型的数据都可以存储；3、数据以原始状态保存在数据湖中，几乎不需要做任何转换；4、数据可以根据应用、分析的需要，转换成适合分析的模式；
构建数据湖时，可以建立一些管理办法，例如：1、将数据进行合理分类，如按照数据类型分类、按照业务内容分类、按照应用场景分类等；2、为了方便数据湖的数据存取，提取定义好命名规则和固定的文件目录结构；3、建立数据访问标准，可以追踪到哪些用户正在访问数据；4、让数据目录可以被检索到；5、提供一些加密、监控、授权、警报等功能；