1. 企业的数据困扰
- 互联网的兴起和数据孤岛
- 非结构化数据
- 保留原始数据
- 集中存储、成本可控、使用简单,能够支持任意格式输入并拥有分析处理能力
2. 数据湖理论
2.1写时模式VS读时模式
-
写时模式:数据在写入之前,就需要定义好数据的schema,数据按照schema的定义写入
- 数据库-表:预先定义好表结构,创建好库
- 数据库、数据仓库、数据集市 或者具体的一些框架如:Mysql,Redis, HBase等均是写时模式,即数据在写入之前就需要预先有Schema定义好才可以。
-
读时模式:数据在写入的时候,不需要定义Schema,在需要使用的时候在使用Schema定义它
数据湖就是一种读时模式思想
-
读时模式因为是数据在使用到的时候再定义模型结构(Schema),因此能够提高数据模型定义的灵活性,可以满足不同上层业务的高效率分析需求。
-
读时模式可以在用的时候再定义Schema就很灵活了,同一套数据可以用不同的Schema来定义,来获取不同的效果。
2.2 数据湖构建的集中常规方式
方案一:基于Hadoop生态体系的数据湖实施方案
1. HDFS来作为存储层,存储各类各样的原始数据,不管是结构的、半结构的、还是非结构的,均在HDFS存储。
2. 使用Spark、SparkSQL、MR等计算框架作为分析引擎,对原始数据进行分析、抽取、计算、利用。
3. 使用Flume、Kafka等持续不断的为HDFS落地新数据
4. 使用Flink、Storm等实时分析HDFS的数据以及落地结果至HDFS之上
方案二:基于云平台的数据湖实施方案
方案三:基于商业公司提供的商业数据湖产品
2.3 为何需要数据湖
- 基于数据湖的开发模式是一种读时模式,是一种灵活的、快速的数据处理思路,可以快速的对以后数据进行数据分析,并让其立刻产生价值。
- 它能在数字化的新浪潮下,真正的帮助企业完成技术转型、完成数据积累、完成高效的数据治理,应对快速发展的商业环境下层出不穷的新问题。