Apache hudi

Apache hudi 第一代流式数据湖平台
本次课程分为:Hudi基础入门、Hudi集成进阶篇和Hudi实战案例篇

hudi基础入门篇主要讲解hudi框架概述、快速使用hudi及基础概念
学习收获:了解什么是数据湖、为什么使用hudi,及hudi的如何管理数据和基本概念理解。

hudi应用进阶篇:主要讲解hudi与spark整合与flink整合,数据流式存储分析。
学习收获:如何在企业中使用hudi,尤其与spark和flink集成,无论是流式存储还是离线分析计算。

hudi实战案例:主要讲解实际案例。
学习收获:如何在实际业务中使用hudi,与spark 和flink的集成


数据仓库:
数据仓库(英语:data warehouse,简称数据数仓,dw),是一个用于存储、分析、报告的数据系统.
企业级应用分析,应用系统和分析决策系统。
数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策分析(Decision support)

数据仓库的特点是本身不产生数据、也不最终消费数据。
每个企业根据自已的业务需求可以分成不同的层次,但是最基础的分层思想,理论上分为三层:操作型数据层(ODS)、数据仓库层(DW)和数据应用层(DA)。

数据湖
数据湖(Data Lake)和数据库、数据仓库一样,都是数据存储的设计模式,现在企业的数据仓库都会通过分层的方式将数据存储的文件夹、文件中。
数据湖是一个集中式数据存储库,用来存储大量的原始数据,使用平台架构来存储数据。

数据湖 
定义:一个以原始格式(通常是对象块和文件)存储数据的系统或存储库,通常是所有企业数据的单一存储。
数据湖可以包括来自关系的结构化数据(行和列)、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮件、文档、pdf)和二进制数据(图像、音频、视频)。
数据湖越来越多的用于描述任何的大型数据湖,数据都是以原始数据方式存储,知道需要存储应用数据的时候才会开始分析数据需求和应用架构。

数据湖中数据,用于报告、可视化、高级分析和机器学习等任务。

数据仓库Data warehouse和数据湖dataLake区别。

数据仓库VS数据湖
数据仓库是一个优化的数据库,用于分析来自事务和业务应用程序的关系数据。
数据存储来自业务线应用程序的关系数据,以及来自移动应用程序,IOT设备和社交媒体的非关系数据。

数据仓库:
数据:来自事务系统、运营数据和业务线应用程序的关系数据。
schema:设计在数据仓库实施之前(写入型schema)
性价比:更快查询结果会带来较高存储成本
数据质量:可作为重要事实依据的高度监管数据。
用户:业务分析师
分析:批处理报告、BI和可视化

数据湖:
数据:来自IOT设备、网站、移动应用程序,社交媒体和企业应用程序的非关系和关系数据。
schema:写入在分析时(读取型schema)
性价比:更快查询结果只需较低存储成本。
数据质量:任何可以或无法监管的数据(例如原始数据)
用户:数据科学家、数据开发人员和业务分析师(使用监管数据)
分析:机器学习、预测分析、数据发现和分析。

数据仓库:使用良好范式规范数据、无法生成数据所需的洞察。
数据湖:新的原始数据存储和处理范式、缺乏结构和治理,会迅速沦为“数据沼泽”。

仓湖一体datalake house 
data LakeHouse(湖仓一体)是新出现的一种数据架构,它同时吸收了数据仓库和数据湖的优势,数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它为公司进行治理带来更多的便利性。

LakeHouse使用新的系统设计:直接在用于数据湖的低成本存储上实现与数据仓库类似的数据结构和数据管理功能。

湖仓一体 Lake House:是一种结合数据湖和数据仓库优势的新范式,从根本上简化企业数据基础架构,并且有望在机器学习已渗透到每个行业的时代加带创新。

数据湖技术本质上,实现全量数据单一存储的高结架构,可以存储任意规模、任意类型、需求各种速度的数据。需任务处理、消除数据采集和存储复杂性,加速应用数据。

数据湖架构:
目前市面上流行三大开源数据湖方案分别为:dalta Lake、Apache Iceberg和apache hudi. 华为的数据湖方案
delta Lake: DataBricks公司推出的一种数据湖方案、网址:https://delta.io/
apache iceberg:以类似于sql的形式高性能的处理大型的开放代表,网址: https://iceberg.apache.org 
apache hudi:hadoop upserts and incrementals,管理大型分析数据集在hdfs上的存储,网址: https://hudi.apahce.org  

总述:
hudi提供hudi表的概念,这些表支持crud操作,可以利用现有的大数据集群比如hdfs做数据文件存储,然而后使用sparksql和hive等分析引擎进行
数据分析查询。

hudi表主要有三个组件:
    1、有序的时间轴元数据,类似于数据库事务日志
    2、分层布局的数据文件,实际写入表中的数据
    3、索引(多种实现方式)映射包含指定的记录的数据集。
    
hudi核心:在所有的表中维护一个包含在不同的即时时间对数据集操作(比如新增、修改或删除)的时间轴。


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值