一、事实(Fact)
1.事实数据概念
定义:事实是数据仓库中的核心数据,它通常是一些可以度量的数值,用来记录业务活动的具体情况。
例如,在销售数据仓库中,销售额、销售量、利润等都是事实。这些事实数据是分析的重点对象,通过对事实数据的统计、汇总等操作,可以获取有价值的业务信息。
举例:以电商平台为例,“用户购买商品”这个业务过程中,购买金额就是一个事实。假设用户A购买了一件价值100元的商品,100元这个数值就是购买金额事实。在分析销售业绩时,我们会关注这些购买金额的总和、平均值等统计信息,从而了解销售的整体情况。
2.事实数据特点:
1)事实数据通常是数值型的,并且往往是可以进行加、减、乘、除等数学运算的。因为在数据分析过程中,经常需要对这些事实进行汇总计算,如计算总销售额、平均销售量等。
2)事实数据的量一般比较大,因为它记录了每一个业务事件的度量值。随着业务的不断开展,事实数据会持续增长。
3.事实数据与事实表:
1)关系:是事实数据的载体,事实表是数据仓库中的一种数据表结构,用于存储事实数据,事实数据是事实表的核心内容:
4.事实表
1)事务事实表:用于承载事务数据,粒度比较低,是最细粒度的事实表,面向事务。
2)周期快照事实表:按照一定的时间周期间隔(如每天、每月)来捕捉业务活动的执行情况。它是对事务事实表的补充,用来记录有规律的、固定时间间隔的业务累计数据,粒度相对较高。例如,每月的库存盘点数据、每日的销售汇总数据等。这种事实表一旦装入数据就不会再更新。
3)累积快照事实表:用来记录具有时间跨度的业务处理过程的整个过程的信息,每个业务的生命周期在表中只有一行记录。它可以记录业务过程中各个关键阶段的信息以及不同阶段之间的时间间隔等。比如,记录一个订单从下单、支付、发货到确认收货整个过程中的各个时间点及相关状态信息。
二、维度(Dimension)
1.维度概念:
定义:维度是用于描述事实的角度或属性。它就像是观察事实的一个视角,通过不同的维度可以对事实进行分类、筛选和汇总。例如,在销售数据仓库中,时间、产品、客户、销售区域等都可以是维度。维度提供了上下文信息,使得事实数据更具意义。
举例:还是以电商平台为例,对于购买金额这个事实,时间维度可以是购买日期(如2023年1月1日),产品维度可以是商品类别(如电子产品),客户维度可以是用户的年龄、性别等。通过这些维度,可以从不同的角度分析购买金额这个事实。比如,可以分析不同日期的销售情况、不同产品类别的销售情况或者不同年龄段用户的购买金额等。
2.维度特点:
1)维度通常是一些具有层次结构的属性。以时间维度为例,它可以有年 - 月 - 日 - 小时等层次。这种层次结构方便进行上卷(Roll - up)和下钻(Drill - down)操作。上卷是指从更详细的维度层次汇总到更高级的层次,例如从日汇总到月;下钻则是相反的操作,从高级层次细分到更详细的层次。
2)维度数据相对稳定,变化频率比事实数据低。例如,产品的类别、客户的基本信息等通常不会像销售事实那样频繁变化。
3.维度建模:
维度建模是组织维度数据的方式,维度建模通过构建星型模型、雪花模型等结构来组织维度数据
三、粒度(Granularity)
1.粒度概念:
定义:粒度是指数据仓库中数据的细化或综合程度。简单来说,就是数据记录的详细程度。细粒度的数据包含更多的细节信息,而粗粒度的数据则是对细节信息进行了一定程度的汇总。例如,在销售数据仓库中,以每一笔销售订单为粒度记录数据是细粒度的,而以每月的销售总额为粒度记录数据则是粗粒度的。
举例:在一个物流数据仓库中,如果记录每一个包裹的发货时间、收货时间、运输路线等详细信息,这就是细粒度的数据。如果只记录每个地区每月的发货总量和收货总量,这就是粗粒度的数据。在实际分析中,细粒度数据可以用于深入分析具体的业务流程和问题,而粗粒度数据则更适合用于宏观层面的趋势分析。
2.粒度特点:
1)粒度的选择取决于具体的业务需求和分析目的。如果需要深入了解个体业务事件,如分析单个客户的购买行为,就需要细粒度的数据;如果只是关注整体趋势,如公司的年度销售趋势,粗粒度的数据可能就足够了。
2)细粒度的数据存储和处理成本相对较高,因为它包含更多的细节信息。但它提供了更丰富的信息,可以支持更灵活的分析。粗粒度的数据存储成本较低,但分析的灵活性相对较差。
3.粒度类型:
数据仓库粒度主要有以下类型:
1)时间粒度:
定义:指数据仓库中每个数据元素所包含的时间间隔。时间粒度决定了数据在时间维度上的详细程度。
举例: -如果数据仓库每小时记录一次销售数据,那么时间粒度就是小时;如果每天记录一次,时间粒度就是天;同理,还可以有月、季度、年等时间粒度。例如,在分析某电商平台的销售趋势时,按天粒度可以了解每天的销售情况波动,按月粒度则可以观察每个月的销售总体变化。
2)业务粒度:
定义:指数据仓库中每个数据元素所包含的业务操作的信息详细程度。业务粒度反映了业务活动在数据仓库中的记录细致程度。
举例: 在销售业务中,如果数据仓库记录每一笔交易的详细信息,包括交易时间、商品信息、客户信息、交易金额等,这就是细业务粒度;如果只记录每个客户在一段时间内的总购买金额、购买次数等汇总信息,而不记录每一笔交易的具体细节,这就是粗业务粒度。
3)数据综合粒度:
定义:是对数据进行一定程度的汇总或综合后形成的粒度级别。数据综合粒度是在原始数据的基础上,通过聚合、计算等操作得到的更宏观的信息粒度。
举例: 对一个月内的销售数据进行汇总,得到每个产品类别的月销售总额、月销售总量等信息,这就是一种较高的数据综合粒度。企业可以通过这种粒度的数据快速了解各个产品类别的销售表现,以便进行产品策略的调整。
4)双重(或多重)粒度:
定义:指在数据仓库中同时存在多种不同粒度级别的数据。这种类型的粒度设计可以满足用户对数据存储和访问效率以及详细分析的需求。
举例:数据仓库既保存低粒度的细节数据,又保存经过汇总的高粒度数据。例如,在电信行业的数据仓库中,既保存每个用户的每一次通话记录(低粒度数据),又保存每个用户每天、每周、每月的通话总量、通话时长等汇总数据(高粒度数据)。这样,在大多数情况下可以快速访问高粒度数据进行常规的业务分析和统计,而在需要深入分析具体业务事件时,又可以查询低粒度的细节数据。
了解更多数据仓库与数据集成关干货内容请关注>>>FineDataLink官网
免费试用、获取更多信息,点击了解更多>>>体验FDL功能