【大数据面试题】26 解释一下数据湖（Data Lake）的概念，以及它与数据仓库的区别

最新推荐文章于 2024-09-02 09:08:16 发布

及未来

最新推荐文章于 2024-09-02 09:08:16 发布

阅读量455

点赞数 4

分类专栏：一天一道面试题文章标签：大数据数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jiweilai1/article/details/138684456

版权

一天一道面试题专栏收录该内容

39 篇文章

订阅专栏

一步一个脚印，一天一道面试题。

今天来聊一聊 数据湖（Data Lake），聊一门技术之前，需要先聊聊这么技术诞生背景是什么，一门技术或概念的诞生往往是为了解决一些之前技术解决不好的问题。

数据湖诞生背景

随着互联网的越来越发达，网页，手机APP，物联网 IOT，等数据量爆炸增长。，对应有各种不同的数据结构（大量半结构化和非结构化数据，如文本、图像、视频等）。而且商业竞争需要灵活，快速，多变。而，此时需要各种预处理（ETL，设计表结构，层级间处理）的数据仓库难以应对。

数据湖定义

数据湖（Data Lake） 是一种集中存储企业所有 原始数据的体系结构，它允许数据以原始、未经过加工的格式被收集并存储。这种存储方式通常不预先定义数据的结构，而是保留数据的原始形态，包括结构化数据（如关系数据库中的表格数据）、半结构化数据（如CSV、日志文件、XML、JSON）和非结构化数据（如文本文件、图像、音频、视频等）。数据湖的核心价值在于它提供了一个灵活的环境，让企业能够在需要时对数据进行分析、处理和转化，适应各种不同的业务需求和分析场景。

简单来说，数据仓库存数据需要设计很多的东西（ETL，表结构，各层级间的处理等），数据湖是什么都不管，原始数据先往里面放了再说，主打一个灵活，快速。

数据湖与数据仓库：各有千秋

如果把数据比作食材，数据湖就像是一个丰富的菜市场，新鲜、多样，适合大厨（数据科学家）自由发挥，创造新菜谱（发现新洞察）；而数据仓库则是高级餐厅的厨房，食材（数据）经过精心挑选和预处理，确保每一道菜（报告、分析结果）都能准时且高质量地上桌。

我是近未来，祝你变得更强！

博客等级

码龄8年

106
原创

365
点赞

368
收藏

264
粉丝

关注

私信

分类专栏

心得随笔 8篇
一天一道面试题 39篇
Kafka 2篇
学习笔记 2篇
设计模式 3篇
Flume 1篇
错误处理 13篇
Web 1篇
数据结构 2篇
Linux命令 5篇
计算机基础 1篇
大数据 11篇
Spark 7篇
Azkaban 3篇
HDFS 2篇
Oracle 5篇
Kettle 6篇
Java 5篇
SQL 3篇
Zookeeper 1篇

展开全部收起

最新评论

【大数据面试题】38 说说 Hive 怎么行转列
穷苦书生_万事愁: 博主的这篇文章真是让我对Hive怎么行转列这个话题有了全新的认识。文章中的细节描述非常到位，让我深切感受到博主的深厚功底和专业知识。希望博主能够继续分享更多这样有价值的好文，让我们读者受益匪浅。期待未来能够得到博主的指导，共同进步。非常感谢博主的无私分享和支持！
【大数据面试题】34 手写一个 Flink SQL 样例
普通网友: 写的真好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【大数据面试题】024 Spark 3 升级了些什么？
普通网友: 阅读这篇博文真是一次愉快的体验！作者的文字真是动人心弦，语言精准而生动。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【心得】如何做一个靠谱的程序员
普通网友: 好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【大数据面试题】022 完成比完美更重要
普通网友: 好文！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。