3.数据仓库之确定粒度

在数据仓库的开发过程中,确定数据仓库中的数据的粒度是至关重要的,翻阅了很多书籍,对粒度的描述都过于笼统,百度百科对数据粒度的定义:

数据粒度,是指数据仓库中数据的细化和综合程度。根据数据粒度细化标准:细化程度越高,粒度越小;细化程度越低,粒度越大。分析了数据仓库中的粒度模型,在此基础上提出了一种估计数据仓库大小的方法。

看完这段描述,估计也是云里雾里的,晦涩难懂!!


在设计数据仓库的时候,通常都会对数据仓库进行分层,分层的好处很多,比如通过分层可以实现业务之间的解耦,上层不必关心下层的具体处理逻辑。其次,通过数据分层更好的管理数据仓库。在数据仓库的分层设计中,最底层的数据通常都被要求满足数据的最细粒度,满足业务的各种组合查询和维度层次的统计。那么这里最低数据粒度是什么呢?

数据粒度可以理解为:在同一维度下,数据的粗细程度。最小粒度是指,根据业务需求,确定当前数据的不可分割的程度。可以明确的知道数据的粒度是根据数据的维度来的。以下举例说明,在设计数据仓库中的数据维度确定。

  • 我们要分析用户的购物和时间维度的关系。从时间维度来说,用户下单时间最细粒度精确到分钟,那么我们可以统计出一分钟有多少用户下单,由此可知系统一分钟的最大并发数量。由于最低粒度是分钟,我们可以在此基础上进行维度上钻,可以统计出一小时,一天,一个月等不同时间维度上用户的购物数量。
  • 上面分析用户购物和时间维度的关系。下面我们确定下用户购物的区域维度,分析出不同区域的用户购物数量。在区域维度的最细粒度上面,我们精确到县级城市。那么县级城市就是在区域维度上面的最小粒度。在县级这个最小粒度的基础上,我们可以上钻到市,省,大区等。
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值