简单的记录一些图片,给自己留个印象,不做具体大量的篇幅解读
数据湖
概念
数据湖是一种设计思想
数据湖读模式/数仓写模式
数据湖三种实现方式
数据湖和数仓的对比
优势
设计原则
1 数据和业务的分离:只考虑数据,不关系业务
2 存储和计算的分离:传统hadoop集群,存储和计算一般都是一个集群节点,计算扩容一般也意味着存储扩容。所以最好设计分离
例如亚马逊aws只作为存储,和所有计算节点无关
3 Lambda架构 vs Kappa架构 vs Iota架构
5 管理服务的重要性和选择合适的工具
Lambda/Kappa架构
Kappa架构的核心思想:
1 简化删除了Lambda离线的批量重复计算,只通过实时计算
2 多保存几天数据源,有必要时才对历史数据重复计算,用保存的数据源使用同一份代码重新计算
数据湖实际应用Delta Lake
以后用到了可以继续具体看看