数据湖 - 学习笔记（一）

最新推荐文章于 2024-06-16 14:01:06 发布

erainm

最新推荐文章于 2024-06-16 14:01:06 发布

阅读量519

点赞数

分类专栏：数据湖文章标签：数据湖

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/eraining/article/details/116023578

版权

数据湖专栏收录该内容

1 篇文章 1 订阅

订阅专栏

1. 企业的数据困扰

互联网的兴起和数据孤岛
非结构化数据
保留原始数据
集中存储、成本可控、使用简单，能够支持任意格式输入并拥有分析处理能力

2. 数据湖理论

2.1写时模式VS读时模式

写时模式：数据在写入之前，就需要定义好数据的schema，数据按照schema的定义写入
- 数据库-表：预先定义好表结构，创建好库
- 数据库、数据仓库、数据集市或者具体的一些框架如：Mysql，Redis， HBase等均是写时模式，即数据在写入之前就需要预先有Schema定义好才可以。
读时模式：数据在写入的时候，不需要定义Schema，在需要使用的时候在使用Schema定义它

数据湖就是一种读时模式思想

读时模式因为是数据在使用到的时候再定义模型结构（Schema），因此能够提高数据模型定义的灵活性，可以满足不同上层业务的高效率分析需求。
读时模式可以在用的时候再定义Schema就很灵活了，同一套数据可以用不同的Schema来定义，来获取不同的效果。

2.2 数据湖构建的集中常规方式

方案一：基于Hadoop生态体系的数据湖实施方案
1. HDFS来作为存储层，存储各类各样的原始数据，不管是结构的、半结构的、还是非结构的，均在HDFS存储。
2. 使用Spark、SparkSQL、MR等计算框架作为分析引擎，对原始数据进行分析、抽取、计算、利用。
3. 使用Flume、Kafka等持续不断的为HDFS落地新数据
4. 使用Flink、Storm等实时分析HDFS的数据以及落地结果至HDFS之上

方案二：基于云平台的数据湖实施方案
在这里插入图片描述

方案三：基于商业公司提供的商业数据湖产品

2.3 为何需要数据湖

基于数据湖的开发模式是一种读时模式，是一种灵活的、快速的数据处理思路，可以快速的对以后数据进行数据分析，并让其立刻产生价值。
它能在数字化的新浪潮下，真正的帮助企业完成技术转型、完成数据积累、完成高效的数据治理，应对快速发展的商业环境下层出不穷的新问题。

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

erainm 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。