【数仓】数仓中的维度、原子指标、派生指标、衍生指标、指标分类、缓慢变化维等的含义

本文详细介绍了数据仓库中的基本概念,包括实体、维度、业务过程和不同类型的指标(原子、派生)。讨论了指标与标签的区别,如概念、构成、属性特征、价值评价方式、分类、数据量级和应用场景。同时,提到了缓慢变化维的概念及其处理方法,帮助读者深入理解数据仓库的构建和管理。
摘要由CSDN通过智能技术生成

1 基本概念

1.1 实体

从业务角度讲,实体是为了满足分析的需要,抽象出来的概念,从业务中拆分出一个个实体,可以是现实存在的业务对象,如用户,商家,商品,也可以是现实没有的,如虚拟的业务对象,活动,会员等等

1.2 维度

维度是度量的基础,用来反映业务的一类属性,这类属性的集合构成一个维度,也可以称为一个实体对象
在划分数据域、构建总线矩阵时,需要结合对业务过程的分析定义维度。

1.3 业务过程

业务过程是指企业的业务活动事件,如下单、支付、退款都是业务过程。通常业务过程是企业活动中的事件,因此业务过程是一个不可拆分的行为事件。

1.4 原子指标

原子指标是对指标统计口径、具体算法的抽象,等于业务过程(原子的业务动作)+ 统计方式,统计方式通常是做聚合计算。例如,支付(事件)金额(度量),曝光(事件)次数(度量)
基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名词。
原子指标=业务过程(动作)+度量,如支付(事件)金额(度量)。
如交易笔数、交易金额、交易用户数等

1.5 业务限定

业务限定为统计的业务范围的圈定。为保障所有统计指标统一、标准、规范地构建,业务限定在业务板块内唯一,并唯一归属于一个来源逻辑表,计算逻辑也以该来源逻辑表模型的字段为基础进行定义。

1.6 派生指标

基于原子指标、时间周期和维度,圈定业务统计范围并分析获取业务统计指标的数值。
派生指标=原子指标+业务限定【做筛选】+统计周期+维度的组合(统计粒度)。派生指标即为对原子指标进行业务统计范围的圈定。如交易金额的完成值、计划值,累计值、同比、环比、占比等。

细分为以下2种类型的指标:

  • 事务型指标:对业务活动进行衡量的指标。
  • 存量型指标:对实体对象(如商品、会员)某些状态的统计。

不同的派生指标可能具有相同的原子指标,这样派生指标就定义了一种等价关系,而属于相同的原子指标就构成了一个对指标体系的划分。在每一个划分中,存在一个可以派生出其他指标的最小派生指标,即最细粒度即原子指标

派生指标也称为衍生指标,是在事务型指标和存量型指标的基础上,通过一定运算规则(逻辑运算)形成的计算指标集合,如平均用户交易额、资产负债率等。

1.7 事实表

用于描述业务过程的详细信息。事实表体现实际数据或详细数值,一般由维度编码和事实数据组成。如订单表

1.8 维度表

维度表存放具有独立属性和层次结构的数据,一般由维度编码和对应的维度说明(标签)组成

1.9 统计粒度

定义数据汇总的程度。例如,如果维度为时间,则统计粒度为年、季、月、周或日等。

1.10 标签

标签是人为设定的、根据业务场景需求,对目标对象运用一定的算法得到的高度精炼的特征标识
标签计算要考虑不同行为(业务过程)的权重不同、数据覆盖范围、衰减时间周期、衰减时间曲线【如平滑、线性、曲线】。

  • 不同时间的行为对标签值的影响程度不同。同一周期内行为的影响力相同,不同周期行为的影响力按照设置的衰减周期和曲线随时间递减。对于标签值会随着行为快速变化的
  • 需要考虑对所选数据来源-时间跨度(例如90天)行为数据,根据不同时间周期(如7天)切片(90/7=13个片段)设置衰减模式,不同时间周期行为数据标签值的影响力与选择的衰减模式相关
  • 基于业务上的判断对多个行为(业务过程)进行权重分配,要求最多两位小数,且各项权重和为1。权重越大,表示该行为对最后标签值的影响越大
  • 数据覆盖范围,如行为为购买保湿类护肤品,10%的用户购买次数在3次以下,90%的用户购买次数在100次以下。如果选择范围为10%-90%,则只对购买次数在3次以上100次以下的用户打标,防止购买次数过少(3次以下)或过多(100次以上)影响数据分析的准确度

三种常见的衰减模式如下:
在这里插入图片描述

2 指标与标签的区别

2.1 概念不同

  • 指标是用来定义、评价和描述特定事物的一种标准或方式。比如:新增用户数、累计用户数、用户活跃率等是衡量用户发展情况的指标
  • 标签是人为设定的、根据业务场景需求,对目标对象运用一定的算法得到的高度精炼的特征标识。可见标签是经过人为再加工后的结果,如网红、白富美、萝莉

2.2 构成不同

  • 指标名称是对事物质与量两方面特点的命名;指标取值是指标在具体时间、地域、条件下的数量表现,如人的体重,指标名称是体重,指标的取值就是120斤
  • 标签名称通常都是形容词或形容词+名词的结构,标签一般是不可量化的,通常是孤立的,除了基础类标签,通过一定算法加工出来的标签一般都没有单位和量纲。如将超过200斤的称为大胖子

2.3 属性与特征不同

指标是BI时代的通用语言。指标注重对事物及事件的过程进行全面的、体系化的描述,指标的描述范围更广泛,既包括过程也涵盖结果;指标更注重与业务的结合,逻辑上更严谨,表现风格也比较严肃刻板。指标更侧重业务化、严格化和数量化。

标签是大数据与人工智能时代的通用语言。标签比指标更有深度、更凝练,是对指标深度加工的结果;标签注重人物和实体对象的描述,标签一般侧重对局部特征和结果的描述,注重与具体业务场景的结合,描述的范围相对较窄;标签更侧重生活化、口语化和符号化。

总之,标签源于指标,却高于指标。指标更理性,标签更感性。标签比指标更有趣、更形象化、人格化,更有画面感,但指标比标签更讲求精确性、合理性、全面性和体系化

2.4 价值评价方式不同

对指标与标签的价值评估方式、评估内容与它们的应用场景相关,也与使用者的感受有关系。

对指标的价值通常用“好不好用”、“全不全面”来评价,对标签的价值通常用“准不准”、“像不像”来评价。

指标的评价较易量化,通常有一定的标准和尺度;标签的评价一般与使用者的感受、应用的结果有强关联关系,不同的人、不同的应用场景,标签能发挥的效果可能大相径庭。

还有一点,由于标签是指标进一步产品化的结果,指标是半成品,标签是成品。所以,标签有时候具有一定的商品属性。在大数据价值链上,标签是可定价、可售卖、可交易的一种数据产品。比如:在个人征信服务领域,用户的三要素、四要素在合规使用的前提下都是可以按条收费的。而指标通常是不具备售卖价值的,指标的价值可在具体应用场景里或者被融合到产品中才能体现出来。

对价值的认知上,指标可以按照重要性分为关键指标、一般指标等,或者说高价值指标、低价值指标之类的,而标签较少提及这种说法,比如有关键指标一说,而没有关键标签一说。

2.5 分类不同

指标有很多种分类方式。如

  • 按照指标计算逻辑,可以将指标分为原子指标、派生指标、组合指标三种类型;
  • 按照对事件描述内容的不同,分为过程性指标和结果性指标;
  • 按照描述对象的不同,分为用户类指标、事件类指标等;
  • 按照指标的变化频率,分为静态指标和动态指标;
  • 按领域划分,有用户类指标、收入类指标、行为类指标等;
  • 按照重要程度,分为主要指标和次要指标等;
  • 按职能来分,分为观测指标、管控指标和挑战指标。
    当然,还有很多其它的分类方法,不再一一列举。

标签的分类方法通常比指标要少一些。之所以这么说,是因为指标能描述的对象范围更广,对事物的描述能做维度更全面、颗粒度更细,而标签对事物(用于对人的描述比较多)的描述则是更深入、更形象的。

  • 按照标签的变化性分为静态标签和动态标签;
  • 按照标签的指代和评估指标的不同,可分为定性标签和定量标签;
  • 按照标签体系分级分层的方式,可以分为一级标签、二级标签、三级标签等,每一个层级的标签相当于一个业务维度的切面;
  • 按照复杂程度分为:基础标签、规则标签和模型标签。
  1. 基础标签通常是写实的,与指标有较高的重合度,比如身高、体重等;
  2. 规则标签一般是有一些简单的规则来控制,符合某种规则时才生成相应的标签;
  3. 模型标签一般需要通过某些机器学习算法来生成。

2.6 数据量级不同

  • 指标涉及的范围更广,从产供销到人财物等方面,都需要用指标来描述,所以,从数量级上看,指标的数据量级肯定比较大。以电信运营商为例,用户域、营销域、产品域、资源域等方面的指标数量量级以万计算。
  • 标签通常用于对人的描述,标签的数量级比较小,通常不超过1千。标签并非越多越好,关键是要实用。当然,层级越多,标签数一般越多。

2.7 表现形态不同

指标的表现形态相对简单,通常以格式化的报表、直方图、趋势图、看板等图形来表示。

标签的表现形态相对复杂。我们通常说的标签是数据化的标签,数据化标签的表现形态以可视化的图表或大屏为主,比如,我们在客户画像时通常以词云图的形式来表现其特征。

事实上,在现实世界中标签还有三种表现形态:

  • 实物标签是用于标明物品的品名、重量、体积、用途等信息的简要标牌,例如:商品标签、价格标签、车检标签、服装吊牌、车票、登机牌都是实物标签;
  • 网络标签(Tag)是一种互联网内容组织方式,是相关性很强的关键字,它能帮助人们通过关键词快速建立对内容总体印象;
  • 电子标签又称RFID射频标签,是一种识别效率和准确度都比较高的识别工具,通过射频信号自动识别目标对象并获取相关数据,识别工作无须人工干预,可工作于各种恶劣环境。

2.8 生产过程不同

  • 指标是生产性思维、拆解式思维,讲究的是化整为零,将事物分解开来进行多角度的描述,得到很多的指标;

  • 标签则是合成性思维、聚合式思维,讲究的是化零为整,将多个分散的指标按照一定的原理进行综合加工,得出概括性的结果。

  • 一般情况下,先有指标,后有标签。指标是业务管理导向的,需要提前规划;标签是应用导向的,跟随业务需求的而变化,面向业务可随时增加;

  • 指标的生产通常先要扫平数据质量问题,统一数据口径;

  • 标签生产涉及数据质量的问题较少,因为数据质量的问题已经在指标生产阶段被解决了。

  • 指标通常存在多个口径、口径不一致的问题,而标签在这方面的问题则相对较少。

2.9 应用场景不同

  • 指标的应用场景很多,涉及企业的战略、管理、运营和支撑等层面。具体包括:战略目标、市场定位、业务监测、业绩考核、任务分解、数据分析、数据建模、BI应用等;
  • 标签的应用场景主要集中于CRM领域,尤其适合于用户运营。比如:客户画像、新增获客、沉默用户激活、存量客户维系、数据建模、数据可视化等。
  • 指标最擅长的应用是监测、分析、评价和建模,标签最擅长的应用是标注、刻画、分类和特征提取。特别需要指出的是,由于对结果的标注也是一种标签,所以在自然语言处理和机器学习相关的算法应用场景下,标签对于监督式学习有重要价值,只是单纯的指标难以做到的。而指标在任务分配、绩效管理等领域的作用,也是标签无法做到的。

2.10 管理与维护的内容不同

原则上来说,指标与标签都需要建立体系化的管理机制。
就指标的管理机制而言,指标管理通常涉及三个方面:

  • 需求阶段的管理、
  • 开发过程的管理、
  • 应用过程的管理。
  • 所以对指标的管理动作主要就是:做指标、管指标、控指标。

指标的日常管理涉及指标的定义、指标的分类、指标的权限管理等。对指标的监控与维护通常涉及缺失值、异常值、勾稽关系等方面的检查。

对标签的管理与维护通常按照标签的生命周期来开展的,涉及标签开发与发布、标签应用、标签价值评估和标签优化及下线四个阶段。对标签的管理动作主要就是:打标签、贴标签、用标签和改标签等。

为做好标签管理与维护,有必要设立专门的标签管理团队,建立标签分类、命名、描述、和实施等方面的规范,完善配套的数据采集流程、标签加工流程、标签问题处理与反馈流程等,建立标签全生命周期管理体系,与数据资产管理制度相统一,为标签在各层面的落地及管理提供建设依据。

3 指标分类

名称分类解析作用/示例
指标结果型指标时机:动作发生后监控数据异常
指标过程型指标时机:动作发生中可以通过运营策略影响过程指标
体系(维度)定性维度文字类描述城市,性别,职业
体系(维度)定量维度数值类描述收入,年龄
  • T1指标:公司战略层面指标
  • T2指标:业务策略层面指标
  • T3指标:业务执行层面指标 在这里插入图片描述

5. 缓慢变化维

缓慢变化维: 简称SCD(Slowly Changing Dimensions),指一些维度随着时间而缓慢地变化(缓慢是相对事实表而言,事实表数据变化的速度比维度表快)。随着时间发生变化的维度称之为缓慢变化维

把处理维度表数据历史变化的问题,称为缓慢变化维问题,简称SCD问题

如根据用户维度,统计不同出生年份的消费金额占比。(80后、90后、00后)。
在统计后,用户可能去修改用户数据,例如:将出生日期改成了 1992年。此时,用户维度表就发生了变化,涉及到这个维度的统计需要重新统计。

以下为解决缓慢变化维问题的几种办法:

  • 保留原始值
  • 改写属性值
  • 增加维度新行
  • 增加维度新列
  • 添加历史表(历史拉链表)

参考

智能数据构建与管理 Dataphin
解决缓慢变化维—拉链表
详细解读指标与标签的区别

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值