Hive数据仓库维度分析


1 指标与维度

这里个人理解:先有指标后有维度,指标相当于具体一些列数据,维度相当于在这一些数据中的某种条件下的数据.

要进行维度分析需要先理解两个术语:指标和维度。指标是衡量事物发展的标准,也叫度量,如价
格,销量等;指标可以求和、求平均值等计算,指标分为绝对数值和相对数值,绝对数值反映具体的大
小和多少,如价格、销量、分数等;相对数值反映一定的程度,如及格率、购买率等。
维度是事物的特征,如颜色、区域、时间等,可以根据不同的维度来对指标进行分析对比。比如根据
区域维度来分析不同区域的产品销量,根据时间来分析每个月产品的销量,同一个产品销量指标从不同
的维度分析会得出不同的结果。维度分为定性和定量两种,定性维度就是字符类型的特征,比如区域维
度包括全国各省份;定量维度就是数值类型的特征,如价格区间、销量区间等,如价格区间维度分为0-
-100、100-1000两个区间,可以按价格区间维度来对指标进行分析,说到这里,其实指标是可以转成
维度的,所转成的维度就是定量维度。

2 业务需求

课程访问量、课程购买量等。下图以课程访问量为例, 理解需求:

在这里插入图片描述

3 识别维度

在日常生活中,我们从不同的角度看待事务会有不同的体会,数据分析也如此,比如:一个在线教育
的平台,作为运营方会关注按时间段分析课程的访问量,作为教育机构则关注单个课程的访问量,都是
课程访问量指标根据不同的维度去分析得到结果不同,这就是维度分析。
比如:按时间分析课程访问量,时间维度是课程访问量的分析依据,时间维度和业务中的课程访问量
是对应的,下表列出了课程访问量明细记录:
在这里插入图片描述
上表中显示了部分课程访问的记录,每条记录表示一次课程访问,记录内容包括:IP,访问时间、课程
ID,根据上边的记录可以按时间统计每天所有课程的访问量,时间就是一个维度,如下是按时间维度分
析的课程访问量:
时间维度(天)
在这里插入图片描述
维度是数据仓库建模的基础,维度是在分析时从多个方面来进行分析,根据上边的例子,将课程访问
作为度量,识别的维度包括:课程、时间、机构、课程分类等,如下图:

在这里插入图片描述
将课程购买作为度量的维度包括:
在这里插入图片描述

4 关键指标

在进行维度分析前需要收集关键指标,关键指标就是运营管理者最关心的指标,比如市场总监提出的
产品销量、新增客户等指标;财务经理提出的营业额、利润率等。

5 分层与分级

通常在分析结果中首先看到的是一个总数,比如全年课程购买量,然后会详细去看每个季度、每个月
的课程购买量,全年、季度、月这些属于时间维度的一个层次,年、季度、月是这个层次的三个级别,
比如按地区分析课程购买量,全国、省、市、县属于地区维度的一个层次,层次中共有四个级别。
每个维度至少有一个层次且该层次至少有一个级别。下边将课程访问的各各维度定义层次和级别,如
下:
在这里插入图片描述
时间维度:
一个层次四个级别:年、月、周、天
课程维度:
课程名称:只有一个级别,每门课程的名称
课程分类:两个级别,大类和小类
课程难度:只有三个级别,简单、一般、难
课程等级:只有三个级别,初、中、高
地区维度:
一个层次三个级别:省、市、县

要想在百度八亿网页的数据海洋中找到你所要的信息, 人工方式需要1200 多人年,而百度搜索技术不到1 秒钟。人 们被数据淹没,却渴望知识。商务智能技术已成为当今企业 获取竞争优势的源泉之一。商务智能通常被理解为将企业中 现有的数据转化为知识,帮助企业做出明智决策的IT工具集。 其中数据仓库、OLAP和数据挖掘技术是商务智能的重要组成 部分。商务智能的关键在于如何从众多来自不同企业运作系 统的数据中,提取有用数据,进行清理以保证数据的正确性, 然后经过抽取、转换、装载合并到一个企业级的数据仓库里, 从而得到企业数据的一个全局视图,并在此基础上利用适当 的查询分析、数据挖掘、OLAP等技术工具对其进行分析处理, 最终将知识呈现给管理者,为管理者的决策过程提供支持。 可见,数据仓库技术是商业智能系统的基础,在智能系统开 发过程中,星型模式设计又是数据仓库设计的基本概念之一。 星型模式是由位于中央的事实表和环绕在四周的维度表 组成的,事实表中的每一行与每个维度表的多行建立关系, 查询结果是通过将一个或者多个维度表与事实表结合之后产 生的,因此每一个维度表和事实表都有一个“一对多”的连 接关系,维度表的主键是事实表中的外键。随着企业交易量 的越来越多,星型模式中的事实表数据记录行数会不断增加, 而且交易数据一旦生成历史是不能改变的,即便不得不变动, 如对发现以前的错误数字做修改,这些修改后的数据也会作 为一行新纪录添加到事实表中。与事实表总是不断增加记录 的行数不同,维度表的变化不仅是增加记录的行数,而且据 需求不同维度表属性本身也会发生变化。本文着重讨论数据 仓库维度表的变化类型及其更新技术。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

赵广陆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值