介绍
数据湖概念是2011年提出来的,最初数据湖是数据仓库的补充,是为了解决数据仓库漫长的开发周期,高昂的开发、维护成本,细节数据丢失等问题出现的。
数据湖大多是相对于传统基于RDBMS的数据仓库,而从2011年前后,也就是数据湖概念出现的时候,很多数据仓库逐渐迁移到以Hadoop为基础的技术栈上,而且除了结构化数据,半结构化、非结构数据也逐渐的存储到数据仓库中,并提供此类服务。这样的数据仓库,已经具有了数据湖的部分功能。
什么是数据湖
关于数据湖的定义,及与数据仓库的区别,目前业内还没有达成一致的认识,下面是几种定义
- 数据湖是指一个大型的基于对象的存储库,以数据的原始格式保存数据,直到它需要被使用时
- A data lake is a storage repository that holds a vast amount of raw data in its native format, including structured, semi-structured, and unstructured data. The data structure and requirements are not defined until the data is needed.
- If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.
能干什么
- Capture data from wide range of traditional (operational, transactional) and new sources (structured and unstructured) as-is
- Store all your data in one environment for cross-functional business analysis
- Support the analytics and data science to uncover new customer, product, and operational insights
- Empower front-line employees and managers, and drive a more profitable customer engagement leveraging customer, product and operational insights
- Integrate analytic insights into operational (Finance, Manufacturing, Marketing, Sales Force, Procurement, Logistics) and management systems (Business Intelligence reports and dashboards)
与数据仓库的区别
实施步骤
理解数据环境的变化
认识到数据湖的好处
- The Active Archive
- Self-Service Exploratory Business Intelligence
- Advanced Analytics
- Workload Optimization & Transition Management
做好从Schema-on-write到Schema-on-read的准备
整合数据湖基础设施
数据湖建设的四个阶段
- Scalable data handling and ingestion
- Analytical ability enhancement
- EDW and Data Lake collaboration
- End-to-end adoption and maturity acquisition
技术架构
Hadoop不一定是数据湖的组成部分,只是它是目前最理想的选择。
#数据池通用结构
数据湖由多个数据池构成,而进到数据池的数据,虽不像数据仓库那样多的数据处理,但是如果不做任何处理,有什么样的数据,数据之间的关系,能做什么等等,都无法或者很难实现,所以数据还是需要做些处理。
数据池描述
- 更新频率
- 来源描述
- 数据量
- 选择标准
- 摘要标准
- 规划标准
- 数据关系
数据池目标
- 用于调整数据模型基础
数据池数据
数据池元数据
- 数据块
- 数据记录
- 键
- 索引
数据池元过程
- 源
- 选择标准
- 频度
- 转换标准
数据池转换标准
数据转换
数据经过转换,才能供用户使用。不同类别的数据,转换的重点也不同。
模拟信号数据
- 消重
- 切除
- 压缩
- 平滑
- 插值
- 采样
- 舍入
- 编码
- 标记
- 阈值
- 聚类
应用程序数据
- 重点在整合
文本数据
- 内在语境判断
- 拼写转换
- 同形词辨认
- 缩写辨认
- 自定义变量识别
- 类别的辨认
- 日期标准化
最佳实践
一些人总结的最佳实践,有利于我们在实施数据湖时,别做成数据垃圾湖。另一方面,能够大大减少我们实施数据湖所走的弯路。
业务优先级列表
数据湖需要为业务带来企业级数据仓库无法提供的价值
建筑监督
基础技术栈的短期及长期规划
安全策略
一个共享平台,由多个业务线或者内部和外部利益相关者共同使用
I/O和内存模型
数据湖的扩展功能
员工技能评估
应该具备构建数据平台实践经验,有丰富的数据管理和数据治理经验
行动计划
从服务提供、几乎零停机时间、可重复读取、处理、改变数据的角度,制定适当的服务水平协议
沟通计划
找到不同的感兴趣的业务涉众,为其展示数据湖的成功示例
灾备计划
五年愿景
数据湖将会成为下一代企业级数据技术的关键基础平台,企业需要提前计划如何将数据湖纳入长期策略
参考
数据湖架构
Big Data Requires a Big, New Architecture
The Data Lake Dream
Data Lake vs Data Warehouse: Key Differences
数据湖的最佳实践
Dear CIO, what you have is NOT a Data Lake
Data Lake Plumbers: Operationalizing the Data Lake