一、事实
定义:事实是指在业务过程或分析领域中实际发生的、可度量的事件或情况。它是数据分析的基础,是一种客观存在。例如,在一个电商平台中,“用户购买了一件商品” 就是一个事实。这个事实包含了具体的交易行为,并且可以通过订单记录等方式来证明它的存在。
特点:
客观性:事实是客观存在的,不依赖于人的主观判断。比如,某个产品的销售数量是多少,这是一个可以通过销售数据统计出来的客观数字,不会因为个人的感觉或想法而改变。
可度量性:能够用具体的数值或指标来描述。以超市销售为例,每天的销售额、顾客流量、商品的销售量等都是可以度量的事实。可以通过收银系统记录销售额,通过门口的计数器统计顾客流量,通过库存变化计算商品销售量。
作用:
构建分析的基础:所有的数据分析都是围绕事实展开的。通过对各种销售事实(如不同地区的销售额、不同时间段的销售量等)的收集和整理,企业可以了解业务的实际运行情况。
支持决策:准确的事实是做出正确决策的前提。例如,如果企业知道某款产品在某个地区的销售事实是持续增长的,就可以考虑在该地区加大市场推广力度或增加库存。
二、维度
维度(Dimension)定义:维度是用于描述和分类事实的某个特定角度或属性。它就像是一个观察事实的 “视角”。在数据分析中,维度提供了对事实进行分割和分析的方法。例如,对于销售事实,常见的维度有时间(如年、月、日)、地理位置(如国家、城市、店铺)、产品类别等。以分析一家连锁超市的销售情况为例,“店铺位置” 就是一个维度,它可以帮助我们了解不同店铺的销售情况。
特点:
多样性:可以有多种不同的维度来描述同一个事实。除了前面提到的时间和地理位置维度,对于顾客购买行为这个事实,还可以有顾客年龄、性别、消费习惯等维度。
层次性:维度可以具有层次结构。例如,地理位置维度可以从国家到省份、城市,再到具体的店铺地址,形成一个层次分明的结构。这种层次结构可以让分析人员从宏观到微观的不同层次来观察和分析事实。
作用:
分类和汇总:通过维度可以对事实进行分类汇总。比如,按照产品类别维度对销售事实进行汇总,可以得到不同类别产品的销售总额,从而了解各类产品的销售贡献。
钻取分析:维度支持钻取分析,即从一个较笼统的层次深入到更详细的层次。例如,在时间维度上,可以从年度销售数据钻取到季度、月度,甚至每日的销售数据,以发现销售的波动规律。
三、粒度
定义:粒度是指数据的详细程度或综合程度。它决定了数据在某个维度上的细分程度。例如,在时间维度上,数据的粒度可以是年、月、日、小时,甚至分钟。如果数据是以年为粒度记录的销售数据,那么它就比较综合,只显示每年的销售总额;如果是以日为粒度,就会更详细,能看到每天的销售情况。在库存管理中,对于库存数据的粒度可以是仓库级别(比较粗的粒度),也可以是货架级别(更细的粒度)。
特点:
可调整性:粒度不是固定不变的,可以根据分析的需求和数据的可用性进行调整。例如,在初步分析销售趋势时,可能以月为粒度就足够了;但当需要深入研究促销活动对销售的影响时,可能需要将粒度细化到日甚至小时。
与数据量相关:较细的粒度通常意味着更多的数据量。以时间维度为例,记录每一分钟的销售数据会比记录每天的销售数据产生更多的数据记录。
作用:
适应不同分析场景:合适的粒度可以满足不同层次的分析需求。粗粒度的数据适合用于展示总体趋势和宏观分析,如年度销售战略规划;细粒度的数据则用于深入挖掘细节和发现具体问题,如分析某次促销活动中不同时间段的销售高峰。
平衡数据处理难度和分析精度:选择合适的粒度可以在保证能够获取有价值信息的同时,避免数据量过大导致的数据处理和分析困难。例如,在分析一个大型电商平台的用户行为时,不是所有的分析都需要用户每一次点击的细粒度数据,有时以用户会话(一次登录期间的行为)为粒度就可以在不过度增加数据处理负担的情况下获得有用的分析结果。
四、与数据仓库相关的三个概念
1、事实是数据仓库的核心内容存储对象
数据仓库是一个用于存储和管理大量数据的系统,其目的是支持企业的决策分析。事实表是数据仓库中的重要组成部分,它存储了各种业务事实数据。例如,在一个企业级数据仓库中,销售事实表记录了所有销售业务的关键信息,如订单金额、销售数量、交易时间等。
事实数据在数据仓库中的组织方式通常是按照主题进行的。例如,销售主题的数据仓库区域会集中存储与销售相关的事实数据,并且会与其他相关主题(如库存、客户等)的数据通过维度建立关联。
2、维度是构建数据仓库架构的关键要素:维度表用于存储维度信息,这些维度表与事实表通过主外键关系相连,构成了数据仓库的星型模型或雪花模型架构。以星型模型为例,中心是事实表,周围连接着多个维度表,如时间维度表、产品维度表、客户维度表等。这种架构方便用户从不同维度对事实数据进行查询和分析。
维度的设计和维护对于数据仓库的性能和可用性至关重要。良好的维度设计可以提高查询效率,例如,合理的维度层次结构(如地理维度中的国家 - 省份 - 城市层次)可以让用户方便地进行钻取分析。
3、粒度影响数据仓库的数据存储和查询策略:
数据仓库的数据粒度选择要考虑数据的来源、用途和存储成本。较细的粒度数据存储需要更多的空间,但可以提供更详细的信息。例如,在存储用户行为数据时,如果以每次点击为粒度存储,会产生大量的数据,但可以用于深入分析用户的操作细节;如果以用户会话为粒度存储,数据量相对较小,适合用于分析用户在一次登录期间的整体行为。
不同的查询需求需要不同的粒度数据。对于高层管理者的决策支持,可能主要使用较粗粒度的数据来查看整体业务指标;而数据分析师在进行深入挖掘时,会需要较细粒度的数据来发现问题和机会。
了解更多数据仓库与数据集成关干货内容请关注>>>FineDataLink官网
免费试用、获取更多信息,点击了解更多>>>体验FDL功能