数据湖 - 学习笔记(一)

1. 企业的数据困扰

  • 互联网的兴起和数据孤岛
  • 非结构化数据
  • 保留原始数据
  • 集中存储、成本可控、使用简单,能够支持任意格式输入并拥有分析处理能力

2. 数据湖理论

2.1写时模式VS读时模式

  • 写时模式:数据在写入之前,就需要定义好数据的schema,数据按照schema的定义写入

    • 数据库-表:预先定义好表结构,创建好库
    • 数据库、数据仓库、数据集市 或者具体的一些框架如:Mysql,Redis, HBase等均是写时模式,即数据在写入之前就需要预先有Schema定义好才可以。
  • 读时模式:数据在写入的时候,不需要定义Schema,在需要使用的时候在使用Schema定义它

数据湖就是一种读时模式思想

  • 读时模式因为是数据在使用到的时候再定义模型结构(Schema),因此能够提高数据模型定义的灵活性,可以满足不同上层业务的高效率分析需求。

  • 读时模式可以在用的时候再定义Schema就很灵活了,同一套数据可以用不同的Schema来定义,来获取不同的效果。

2.2 数据湖构建的集中常规方式

方案一:基于Hadoop生态体系的数据湖实施方案
1. HDFS来作为存储层,存储各类各样的原始数据,不管是结构的、半结构的、还是非结构的,均在HDFS存储。
2. 使用Spark、SparkSQL、MR等计算框架作为分析引擎,对原始数据进行分析、抽取、计算、利用。
3. 使用Flume、Kafka等持续不断的为HDFS落地新数据
4. 使用Flink、Storm等实时分析HDFS的数据以及落地结果至HDFS之上

方案二:基于云平台的数据湖实施方案
在这里插入图片描述

方案三:基于商业公司提供的商业数据湖产品

2.3 为何需要数据湖

  1. 基于数据湖的开发模式是一种读时模式,是一种灵活的、快速的数据处理思路,可以快速的对以后数据进行数据分析,并让其立刻产生价值。
  2. 它能在数字化的新浪潮下,真正的帮助企业完成技术转型、完成数据积累、完成高效的数据治理,应对快速发展的商业环境下层出不穷的新问题。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

erainm

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值