数据湖搭建指南——几个核心问题
1、什么是数据湖?
数据湖是一种技术系统,可以大批量并且廉价的分析结构化和非结构化数据资产。
其实很简单,数据湖的最大魅力在于可以分析一切类型的数据。
自 2010 年首次提出“数据湖”一词以来,采用数据湖架构的组织数量呈指数级增长。 它们支持多种分析功能,从数据的基本 SQL 查询到实时分析,再到机器学习。
主要组成:
数据湖由四个主要组件组成:存储层、格式化层、计算层和元数据层。
2、为什么要使用数据湖?
数据湖架构将数据资产整合到一个集中的存储库中。该存储库将用作对以前孤立的数据进行跨功能分析的根基。此外,来自数据湖的架构有助于数字化驱动的实现。
任何拥有来自物联网传感器或移动应用点击流等来源的大规模非结构化数据都可以采用数据湖架构&#