基于Hadoop生态圈的数据仓库实践 —— 目录

最新推荐文章于 2024-06-29 10:21:58 发布

wzy0623

最新推荐文章于 2024-06-29 10:21:58 发布

阅读量3.1k

点赞数 5

分类专栏： Linux

本文链接：https://blog.csdn.net/wzy0623/article/details/51757009

版权

Linux 专栏收录该内容

60 篇文章 5 订阅

订阅专栏

第一部分：概述
一、什么是数据仓库
1. 操作型系统和分析型系统
2. ETL
3. 数据需求
4. 多维数据模型基础
二、在Hadoop上实现数据仓库
1. 大数据的定义
2. 为什么需要分布式计算
3. Hadoop基本组件
4. Hadoop生态圈的其它组件
5. Hadoop生态圈的分布式计算思想
6. 与传统数据仓库架构对应的Hadoop生态圈工具

第二部分：环境搭建
一、Hadoop版本选型
二、安装Hadoop及其所需的服务
三、建立数据仓库示例模型
1. ERD
2. 选择文件格式
3. 建立数据库、表和视图

第三部分：ETL
一、使用Sqoop抽取数据
1. Sqoop简介
2. CDH 5.7.0中的Sqoop
3. 使用Sqoop抽取数据
二、使用Hive转换、装载数据
1. Hive简介
2. 初始装载
3. 定期装载
三、使用Oozie定期自动执行ETL
1. Oozie简介
2. 建立定期装载工作流
3. 建立coordinator作业定期自动执行工作流

第四部分：进阶技术
一、增加列
二、按需装载
三、维度子集
四、角色扮演维度
五、快照
六、维度层次
七、递归
八、多路径和参差不齐的层次
九、退化维度
十、杂项维度
十一、多重星型模式
十二、间接数据源
十三、无事实的事实表
十四、迟到的事实
十五、维度合并
十六、累积的度量
十七、分段维度

第五部分：OLAP与数据可视化
一、OLAP与Impala简介
二、Hive、SparkSQL、Impala比较
三、Impala OLAP实例
四、数据可视化与Hue简介
五、Hue、Zeppelin比较
六、Hue数据可视化实例