数据湖应用平台是一个用于存储、处理和分析大容量、用途数据的平台。它旨在以隐蔽、高效率的方式,为企业提供全面的数据管理和应用能力。
核心概念
-
数据湖:一个集中各种原始格式数据的存储库,包括格式化数据、半格式化数据和非格式化数据。
-
数据应用:基于数据湖构建的各种数据分析、挖掘和应用服务,例如:
-
数据图表
-
线路
-
商业智能
-
预测分析
-
1.要素组成
一个典型的数据湖应用平台架构通常包括以下几个核心组件:
-
数据采集层:
-
从各种数据源(如数据库、日志、传感器、Web应用等)采集数据。
-
支持批量采集和实时采集。
-
常用工具:Flume、Sqoop、Kafka。
-
-
汇率层:
-
存储原始数据,包括重构、半重构和非重构数据。
-
支持海量数据存储和高并发访问。
-