hive olap 数据仓库_第三篇：数据仓库系统的实现与使用(含OLAP重点讲解)

最新推荐文章于 2021-02-24 15:50:40 发布

weixin_39707725

最新推荐文章于 2021-02-24 15:50:40 发布

阅读量133

点赞数

文章标签： hive olap 数据仓库

本文链接：https://blog.csdn.net/weixin_39707725/article/details/111793186

版权

前言上一篇重点讲解了数据仓库建模，它是数据仓库开发中最核心的部分。然而完整的数据仓库系统还会涉及其他一些组件的开发，其中最主要的是ETL工程，在线分析处理工具(OLAP)和商务智能(BI)应用等。本文将对这些方面做一个总体性的介绍(尤其是OLAP)，旨在让读者对数据仓库的认识提升到一个全局性的高度。创建数据仓库数据仓库的创建方法和数据库类似，也是通过编写DDL语句来实现。在过去，数据仓库系统大都建...

摘要由CSDN通过智能技术生成

前言

上一篇重点讲解了数据仓库建模，它是数据仓库开发中最核心的部分。然而完整的数据仓库系统还会涉及其他一些组件的开发，其中最主要的是ETL工程，在线分析处理工具(OLAP)和商务智能(BI)应用等。

本文将对这些方面做一个总体性的介绍(尤其是OLAP)，旨在让读者对数据仓库的认识提升到一个全局性的高度。

创建数据仓库

数据仓库的创建方法和数据库类似，也是通过编写DDL语句来实现。在过去，数据仓库系统大都建立在RDBMS上，因为维度建模其实也可以看做是关系建模的一种。但如今随着开源分布式数据仓库工具如Hadoop Hive，Spark SQL的兴起，开发人员往往将建模和实现分离。使用专门的建模软件进行ER建模、关系建模、维度建模，而具体实现则在Hive/Spark SQL下进行。没办法，谁让这些开源工具没有提供自带的可视化建模插件呢:-(。

话说现在的开源分布式工具都是"散兵作战"，完成一个大的项目要组合N个工具，没有一个统一的开发平台。还有就是可视化效果比较差，界面很难看或者没有界面。个人建议在资金足够的情况下尽量使用商用大数据平台来开发，虽然这些商用产品广告打得多少有点夸张，但是它们的易用性做的是真好。这里笔者推荐阿里云的数加平台，附链接：https://data.aliyun.com/。

ETL：抽取、转换、加载

在本系列第一篇中，曾大致介绍了该环节，它很可能是数据仓库开发中最耗时的阶段。本文将详细对这个环节进行讲解。

ETL工作的实质就是从各个数据源提取数据，对数据进行转换，并最终加载填充数据到数据仓库维度建模后的表中。只有当这些维度/事实表被填充好，ETL工作才算完成。接下来分别对抽取，转换，加载这三个环节进行讲解：

1. 抽取(Extract)

数据仓库是面向分析的，而操作型数据库是面向应用的。显然，并不是所有用于支撑业务系统的数据都有拿来分析的必要。因此，该阶段主要是根据数据仓库主题、主题域确定需要从应用数据库中提取的数。

具体开发过程中，开发人员必然经常发现某些ETL步骤和数据仓库建模后的表描述不符。这时候就要重新核对、设计需求，重新进行ETL。正如数据库系列的这篇中讲到的，任何涉及到需求的变动，都需要重头开始并更新需求文档。

2. 转换(Transform)

转换步骤主要是指对提

最低0.47元/天解锁文章

weixin_39707725

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive olap 数据仓库_第三篇：数据仓库系统的实现与使用(含OLAP重点讲解)

前言上一篇重点讲解了数据仓库建模，它是数据仓库开发中最核心的部分。然而完整的数据仓库系统还会涉及其他一些组件的开发，其中最主要的是ETL工程，在线分析处理工具(OLAP)和商务智能(BI)应用等。本文将对这些方面做一个总体性的介绍(尤其是OLAP)，旨在让读者对数据仓库的认识提升到一个全局性的高度。创建数据仓库数据仓库的创建方法和数据库类似，也是通过编写DDL语句来实现。在过去，数据仓库系统大都建...
复制链接

扫一扫