数据湖是一种存储。
和传统数据仓库对比
特征 | 数据仓库 | 数据湖 |
---|---|---|
数据 | 来自事务系统、运营数据库和业务线应用程序的关系数据 | 来自 IoT 设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系数据 |
schema | 设计在数据仓库实施之前(写入型 Schema) | 写入在分析时(读取型 Schema) |
性价比 | 更快查询结果会带来较高存储成本 | 更快查询结果只需较低存储成本 |
数据质量 | 可作为重要事实依据的高度监管数据 | 任何可以或无法进行监管的数据(例如原始数据) |
用户 | 业务分析师 | 数据科学家、数据开发人员和业务分析师(使用监管数据) |
使用场景 | 批处理报告、BI 和可视化 | 机器学习、预测分析、数据发现和分析 |
数据湖的解决方案主要有三种
- delta(背后是spark开发公司Databricks)
- Apache Iceberg(NetFlix推出的)
- Apache Hudi(Ubser推出的)
ORC是hadoop生态圈的一种底层列式文件存储格式,HIVE的表就是按照ORC格式进行存储的。
iceberg实际上是上述的table format层。
数据写入ICEberg可以参考
https://blog.csdn.net/wypblog/article/details/109882022
iceberge的存储结构如下