数据湖概述

数据湖是一种存储。
和传统数据仓库对比

特征数据仓库数据湖
数据来自事务系统、运营数据库和业务线应用程序的关系数据来自 IoT 设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系数据
schema设计在数据仓库实施之前(写入型 Schema)写入在分析时(读取型 Schema)
性价比更快查询结果会带来较高存储成本更快查询结果只需较低存储成本
数据质量可作为重要事实依据的高度监管数据任何可以或无法进行监管的数据(例如原始数据)
用户业务分析师数据科学家、数据开发人员和业务分析师(使用监管数据)
使用场景批处理报告、BI 和可视化机器学习、预测分析、数据发现和分析

数据湖的解决方案主要有三种

  • delta(背后是spark开发公司Databricks)
  • Apache Iceberg(NetFlix推出的)
  • Apache Hudi(Ubser推出的)
    在这里插入图片描述

在这里插入图片描述
ORC是hadoop生态圈的一种底层列式文件存储格式,HIVE的表就是按照ORC格式进行存储的。
iceberg实际上是上述的table format层。

数据写入ICEberg可以参考
https://blog.csdn.net/wypblog/article/details/109882022
iceberge的存储结构如下
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值