大数据湖项目建设方案
(获取完整版文档请添加关注并私信沟通!)
目 录
1. 项目综述
1.1. 项目背景
1.2. 项目目标
1.3. 项目建设路线
2 需求分析
2.1功能需求
2.1.1 统一数据接入
2.1.2 数据迁移
2.1.3 数据范围与ETL
2.1.4 报表平台
2.1.5 安全管理
2.1.6 数据治理
2.2非功能需求
2.2.1运维保障需求
2.2.2可用性需求
2.2.3可靠性需求
2.2.4性能需求
2.3需求总结
3 整体解决方案
3.1 数据湖整体方案
3.1.1硬件部署方式
3.1.2基于CDH的数据湖软件部署
3.1.3数据ETL及数据接口开发方案
3.1.4沙盒管理
3.1.5多租户管理
3.2报表平台整体方案
3.2.1系统设计原则
3.2.2数据分析场景
3.2.3业务需求建议
3.2.4系统逻辑架构
3.2.5技术方案特点
3.2.6其它特性
3.2.7 报表平台具体实施步骤:
3.3数据仓库整体方案
3.3.1数仓的定义
3.3.2 数据仓库的特点
3.3.2 数据仓库具体实施步骤
3.4数据治理整体方案
3.4.1主数据管理实施
3.4.2元数据管理实施
4 企业版功能和特性
4.1 CDH核心套件
4.1.1 分布式文件系统HDFS
4.1.2 分布式数据库HBase
4.1.3 统一资源管理和调度框架YARN
4.1.4 分布式批处理引擎MapReduce
4.1.5 分布式内存计算框架Spark
4.1.6 数据仓库组件Hive
4.1.7 安全管理组件 Sentry
4.1.8 隐私保护
4.1.9 统一用户体验工具 HUE
4.1.10 元数据管理Metastore&HCatalog
4.1.11 高性能数据分析MPP引擎 Impala
4.1.12 数据导入导出工作Sqoop
4.1.13 消息处理总线Kafka
4.2 Manager集群管理组件
4.3 Navigator数据管理组件
5 项目建设
5.1项目实施计划
5.1.1项目实施服务
5.1.2人员构成
5.2验收说明