初识数据湖 - 科普

最新推荐文章于 2024-08-07 17:05:33 发布

腹黑客

最新推荐文章于 2024-08-07 17:05:33 发布

阅读量324

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29342297/article/details/113647070

版权

什么是数据湖？

一种支持任意数据格式、并保留原始数据内容的大规模存储系统架构，并且其支持海量数据的分析处理。

大规模存储系统架构
- 支持任意数据格式的输入，并做到集中存储
- 能够保留海量的原始数据
支持海量数据分析处理

数据湖的命名（Data Lake）是比较贴合其实际意义的。

数据湖应该做到：

集中存储
支持任意数据格式输入等

这样需求就像是：无论大小河流（任意格式）均可将水汇入湖泊中（集中存储）。

我们可以认为数据湖就是一个巨大的数据集合，汇聚了来自各个系统的任意格式的原始数据，并且能够对湖泊进行利用分析，进行水的流出（分析、利用的结果）。

数据湖/数据集市/数仓区别

数据湖：

是整个公司内的一个开放的数据中心，接收任意类型的数据输入，对数据进行集中存储，并能对这些数据提供分析服务。

数据仓库：

是整个公司的业务数据集合，主要针对结构化的业务数据，并能提供查询分析服务。

数据集市：

是一个小型的部门级别或者工作组级别的数仓。其内部数据主要针对指定业务范围，或者为指定人员

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

腹黑客 CSDN认证博客专家 CSDN认证企业博客

码龄9年

112: 原创

31万+: 周排名

219万+: 总排名

9万+: 访问

: 等级

1562: 积分

39: 粉丝

40: 获赞

25: 评论

182: 收藏

私信

关注

分类专栏

spark 8篇
scala 7篇
kafka 4篇
操作系统 12篇
flink 21篇

最新评论

Linux命令快速复习
张小鱼༒: 博主，你的这个lsdt命令咋使用的？这个在Linux里面咋使用？
kafka快速入门
SiegfriedG: 如果某一个分区有三个副本因子，就算其中一个挂掉，那么只会剩下的两个钟，两个钟什么意思啊
Flink 快速入门案例(参考官方文档)
Lzzzii: 你好，为什么我直接运行控制台没反应呢
python3用mysqlclient连接mysql数据库操作问题
IT包工头hyh: 你安装的mysqlclint，为啥用的是mysqldb呢
Flink - Table API 之 window (窗口)
KledLi: 好家伙直接把官方文档粘过来

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。