【1.系统工程与信息系统基础】1.25 数据湖

数据湖与数据仓库体系解析

一、数据湖核心定义

数据湖
存储特性
数据处理
数据形态
原始数据仓库
全格式支持
事务处理
分析处理
结构化数据
非结构化数据

核心特征矩阵

维度数据湖特性典型数据示例
数据结构原始形态保留日志文件/传感器数据
数据类型多模态存储图片/视频/JSON文档
处理能力实时+批量处理流计算/机器学习

二、数据湖架构模型

分层处理架构

应用服务层
实时分析
BI报表
机器学习
标准处理层
数据清洗
元数据管理
原始数据层
结构化数据
半结构化数据
非结构化数据
原始数据层
标准处理层
应用服务层

三、数据湖 vs 数据仓库对比

体系对比全景图

互补共存
数据仓库
+清洗后结构化数据
+预定义Schema
+SQL接口
+OLAP优化
数据湖
+原始多模数据
+后定义Schema
+多协议访问
+弹性扩展

数据仓库 和 数据湖 的区别表格

维度数据仓库数据湖
数据形态清洗后的结构化数据原始数据(结构/非结构)
模式定义数据存储之前定义数据模式
数据集成之前完成大量工作
数据的价值提前明确
数据存储之后定义数据模式
提供敏捷、简单的数据集成
数据的价值尚未明确
存取方法标准SQL接口应用程序,类SQL的程序
优势多数据源集成,干净、安全的数据、转换一次,多次使用无限扩展性,并行执行,支持编辑框架,数据经济

四、技术实现路径

数据湖建设三步法

企业数据湖实施路线
基础建设
能力构建
价值实现
对象存储部署
数据接入工具链
元数据管理
数据目录服务
分析沙箱
生产级应用

关键技术组件

组件类型数据仓库方案数据湖方案
存储引擎列式存储(如Redshift)对象存储(如S3)
计算引擎MPP架构Spark/Flink
元数据管理集中式Catalog分布式元数据服务
安全控制行列级权限动态数据掩码

五、典型应用场景

混合架构实践案例

清洗转换
业务系统
数据湖
数据仓库
BI报表
AI训练

场景对比矩阵

场景特征适用数据仓库适用数据湖
数据结构稳定Schema动态变化结构
查询模式预定义分析探索式分析
数据新鲜度T+1批量更新实时流式接入
用户角色业务分析师数据科学家

行业实践

  • 沃尔玛使用数据湖存储每日50TB销售点数据,支撑实时定价分析
  • 平安银行构建湖仓一体架构,查询性能提升3倍,存储成本降低40%
    技术趋势:Delta Lake/Iceberg等开源方案正在模糊湖仓边界

湖仓-知识点

湖仓一体架构,就是数据库和数据湖一起使用,没有明确的数据先放进数据湖,理清楚之后逐步从数据湖提取出来入仓库,如此数据湖里面所存的数据量不会非常的庞大,而且理清楚后就可以入仓库,形成一个良性的循环。


软考经验

数据仓库和数据湖的区别需学习掌握,不排除会出题会出一些填空。


写在最后 ✨

各位技术小伙伴们~ 👋
如果觉得这篇解析对你有帮助:

  • 👉 点击关注 → 不错过后续的架构干货
  • 👍 点赞支持 → 您的鼓励是我更新的动力
  • 💾 收藏备用 → 搭建系统时随时查阅
  • 🎯 转发分享 → 帮助更多小伙伴少走弯路

「小贴士」:点击头像→【关注】按钮,系统架构师成长之路不迷路! 🚀

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值