1 基本概念
1.1 实体
从业务角度讲,实体是为了满足分析的需要,抽象出来的概念,从业务中拆分出一个个实体,可以是现实存在的业务对象,如用户,商家,商品,也可以是现实没有的,如虚拟的业务对象,活动,会员等等
1.2 维度
维度是度量的基础,用来反映业务的一类属性,这类属性的集合构成一个维度,也可以称为一个实体对象。
在划分数据域、构建总线矩阵时,需要结合对业务过程的分析定义维度。
1.3 业务过程
业务过程是指企业的业务活动事件,如下单、支付、退款都是业务过程。通常业务过程是企业活动中的事件,因此业务过程是一个不可拆分的行为事件。
1.4 原子指标
原子指标是对指标统计口径、具体算法的抽象,等于业务过程(原子的业务动作)+ 统计方式,统计方式通常是做聚合计算。例如,支付(事件)金额(度量),曝光(事件)次数(度量)
基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名词。
原子指标=业务过程(动作)+度量,如支付(事件)金额(度量)。
如交易笔数、交易金额、交易用户数等
1.5 业务限定
业务限定为统计的业务范围的圈定。为保障所有统计指标统一、标准、规范地构建,业务限定在业务板块内唯一,并唯一归属于一个来源逻辑表,计算逻辑也以该来源逻辑表模型的字段为基础进行定义。
1.6 派生指标
基于原子指标、时间周期和维度,圈定业务统计范围并分析获取业务统计指标的数值。
派生指标=原子指标+业务限定【做筛选】+统计周期+维度的组合(统计粒度)。派生指标即为对原子指标进行业务统计范围的圈定。如交易金额的完成值、计划值,累计值、同比、环比、占比等。
细分为以下2种类型的指标:
- 事务型指标:对业务活动进行衡量的指标。
- 存量型指标:对实体对象(如商品、会员)某些状态的统计。
不同的派生指标可能具有相同的原子指标,这样派生指标就定义了一种等价关系,而属于相同的原子指标就构成了一个对指标体系的划分。在每一个划分中,存在一个可以派生出其他指标的最小派生指标,即最细粒度即原子指标。
派生指标也称为衍生指标,是在事务型指标和存量型指标的基础上,通过一定运算规则(逻辑运算)形成的计算指标集合,如平均用户交易额、资产负债率等。
1.7 事实表
用于描述业务过程的详细信息。事实表体现实际数据或详细数值,一般由维度编码和事实数据组成。如订单表
1.8 维度表
维度表存放具有独立属性和层次结构的数据,一般由维度编码和对应的维度说明(标签)组成
1.9 统计粒度
定义数据汇总的程度。例如,如果维度为时间,则统计粒度为年、季、月、周或日等。
1.10 标签
标签是人为设定的、根据业务场景需求,对目标对象运用一定的算法得到的高度精炼的特征标识
标签计算要考虑不同行为(业务过程)的权重不同、数据覆盖范围、衰减时间周期、衰减时间曲线【如平滑、线性、曲线】。
- 不同时间的行为对标签值的影响程度不同。同一周期内行为的影响力相同,不同周期行为的影响力按照设置的衰减周期和曲线随时间递减。对于标签值会随着行为快速变化的
- 需要考虑对所选数据来源-时间跨度(例如90天)行为数据,根据不同时间周期(如7天)切片(90/7=13个片段)设置衰减模式,不同时间周期行为数据标签值的影响力与选择的衰减模式相关
- 基于业务上的判断对多个行为(业务过程)进行权重分配,要求最多两位小数,且各项权重和为1。权重越大,表示该行为对最后标签值的影响越大
- 数据覆盖范围,如行为为购买保湿类护肤品,10%的用户购买次数在3次以下,90%的用户购买次数在100次以下。如果选择范围为10%-90%,则只对购买次数在3次以上100次以下的用户打标,防止购买次数过少(3次以下)或过多(100次以上)影响数据分析的准确度
三种常见的衰减模式如下:
2 指标与标签的区别
2.1 概念不同
- 指标是用来定义、评价和描述特定事物的一种标准或方式。比如:新增用户数、累计用户数、用户活跃率等是衡量用户发展情况的指标
- 标签是人为设定的、根据业务场景需求,对目标对象运用一定的算法得到的高度精炼的特征标识。可见标签是经过人为再加工后的结果,如网红、白富美、萝莉
2.2 构成不同
- 指标名称是对事物质与量两方面特点的命名;指标取值是指标在具体时间、地域、条件下的数量表现,如人的体重,指标名称是体重,指标的取值就是120斤
- 标签名称通常都是形容词或形容词+名词的结构,标签一般是不可量化的,通常是孤立的,除了基础类标签,通过一定算法加工出来的标签一般都没有单位和量纲。如将超过200斤的称为大胖子
2.3 属性与特征不同
指标是BI时代的通用语言。指标注重对事物及事件的过程进行全面的、体系化的描述,指标的描述范围更广泛,既包括过程也涵盖结果;指标更注重与业务的结合,逻辑上更严谨,表现风格也比较严肃刻板。指标更侧重业务化、严格化和数量化。
标签是大数据与人工智能时代的通用语言。标签比指标更有深度、更凝练,是对指标深度加工的结果;标签注重人物和实体对象的描述,标签一般侧重对局部特征和结果的描述,注重与具体业务场景的结合,描述的范围相对较窄;标签更侧重生活化、口语化和符号化。
总之,标签源于指标,却高于指标。指标更理性,标签更感性。标签比指标更有趣、更形象化、人格化,更有画面感,但指标比标签更讲求精确性、合理性、全面性和体系化
2.4 价值评价方式不同
对指标与标签的价值评估方式、评估内容与它们的应用场景相关,也与使用者的感受有关系。
对指标的价值通常用“好不好用”、“全不全面”来评价,对标签的价值通常用“准不准”、“像不像”来评价。
指标的评价较易量化,通常有一定的标准和尺度;标签的评价一般与使用者的感受、应用的结果有强关联关系,不同的人、不同的应用场景,标签能发挥的效果可能大相径庭。
还有一点,由于标签是指标进一步产品化的结果,指标是半成品,标签是成品。所以,标签有时候具有一定的商品属性。在大数据价值链上,标签是可定价、可售卖、可交易的一种数据产品。比如:在个人征信服务领域,用户的三要素、四要素在合规使用的前提下都是可以按条收费的。而指标通常是不具备售卖价值的,指标的价值可在具体应用场景里或者被融合到产品中才能体现出来。
对价值的认知上,指标可以按照重要性分为关键指标、一般指标等,或者说高价值指标、低价值指标之类的,而标签较少提及这种说法,比如有关键指标一说,而没有关键标签一说。
2.5 分类不同
指标有很多种分类方式。如
- 按照指标计算逻辑,可以将指标分为原子指标、派生指标、组合指标三种类型;
- 按照对事件描述内容的不同,分为过程性指标和结果性指标;
- 按照描述对象的不同,分为用户类指标、事件类指标等;
- 按照指标的变化频率,分为静态指标和动态指标;
- 按领域划分,有用户类指标、收入类指标、行为类指标等;
- 按照重要程度,分为主要指标和次要指标等;
- 按职能来分,分为观测指标、管控指标和挑战指标。
当然,还有很多其它的分类方法,不再一一列举。
标签的分类方法通常比指标要少一些。之所以这么说,是因为指标能描述的对象范围更广,对事物的描述能做维度更全面、颗粒度更细,而标签对事物(用于对人的描述比较多)的描述则是更深入、更形象的。
- 按照标签的变化性分为静态标签和动态标签;
- 按照标签的指代和评估指标的不同,可分为定性标签和定量标签;
- 按照标签体系分级分层的方式,可以分为一级标签、二级标签、三级标签等,每一个层级的标签相当于一个业务维度的切面;
- 按照复杂程度分为:基础标签、规则标签和模型标签。
- 基础标签通常是写实的,与指标有较高的重合度,比如身高、体重等;
- 规则标签一般是有一些简单的规则来控制,符合某种规则时才生成相应的标签;
- 模型标签一般需要通过某些机器学习算法来生成。
2.6 数据量级不同
- 指标涉及的范围更广,从产供销到人财物等方面,都需要用指标来描述,所以,从数量级上看,指标的数据量级肯定比较大。以电信运营商为例,用户域、营销域、产品域、资源域等方面的指标数量量级以万计算。
- 标签通常用于对人的描述,标签的数量级比较小,通常不超过1千。标签并非越多越好,关键是要实用。当然,层级越多,标签数一般越多。
2.7 表现形态不同
指标的表现形态相对简单,通常以格式化的报表、直方图、趋势图、看板等图形来表示。
标签的表现形态相对复杂。我们通常说的标签是数据化的标签,数据化标签的表现形态以可视化的图表或大屏为主,比如,我们在客户画像时通常以词云图的形式来表现其特征。
事实上,在现实世界中标签还有三种表现形态:
- 实物标签是用于标明物品的品名、重量、体积、用途等信息的简要标牌,例如:商品标签、价格标签、车检标签、服装吊牌、车票、登机牌都是实物标签;
- 网络标签(Tag)是一种互联网内容组织方式,是相关性很强的关键字,它能帮助人们通过关键词快速建立对内容总体印象;
- 电子标签又称RFID射频标签,是一种识别效率和准确度都比较高的识别工具,通过射频信号自动识别目标对象并获取相关数据,识别工作无须人工干预,可工作于各种恶劣环境。
2.8 生产过程不同
-
指标是生产性思维、拆解式思维,讲究的是化整为零,将事物分解开来进行多角度的描述,得到很多的指标;
-
标签则是合成性思维、聚合式思维,讲究的是化零为整,将多个分散的指标按照一定的原理进行综合加工,得出概括性的结果。
-
一般情况下,先有指标,后有标签。指标是业务管理导向的,需要提前规划;标签是应用导向的,跟随业务需求的而变化,面向业务可随时增加;
-
指标的生产通常先要扫平数据质量问题,统一数据口径;
-
标签生产涉及数据质量的问题较少,因为数据质量的问题已经在指标生产阶段被解决了。
-
指标通常存在多个口径、口径不一致的问题,而标签在这方面的问题则相对较少。
2.9 应用场景不同
- 指标的应用场景很多,涉及企业的战略、管理、运营和支撑等层面。具体包括:战略目标、市场定位、业务监测、业绩考核、任务分解、数据分析、数据建模、BI应用等;
- 标签的应用场景主要集中于CRM领域,尤其适合于用户运营。比如:客户画像、新增获客、沉默用户激活、存量客户维系、数据建模、数据可视化等。
- 指标最擅长的应用是监测、分析、评价和建模,标签最擅长的应用是标注、刻画、分类和特征提取。特别需要指出的是,由于对结果的标注也是一种标签,所以在自然语言处理和机器学习相关的算法应用场景下,标签对于监督式学习有重要价值,只是单纯的指标难以做到的。而指标在任务分配、绩效管理等领域的作用,也是标签无法做到的。
2.10 管理与维护的内容不同
原则上来说,指标与标签都需要建立体系化的管理机制。
就指标的管理机制而言,指标管理通常涉及三个方面:
- 需求阶段的管理、
- 开发过程的管理、
- 应用过程的管理。
- 所以对指标的管理动作主要就是:做指标、管指标、控指标。
指标的日常管理涉及指标的定义、指标的分类、指标的权限管理等。对指标的监控与维护通常涉及缺失值、异常值、勾稽关系等方面的检查。
对标签的管理与维护通常按照标签的生命周期来开展的,涉及标签开发与发布、标签应用、标签价值评估和标签优化及下线四个阶段。对标签的管理动作主要就是:打标签、贴标签、用标签和改标签等。
为做好标签管理与维护,有必要设立专门的标签管理团队,建立标签分类、命名、描述、和实施等方面的规范,完善配套的数据采集流程、标签加工流程、标签问题处理与反馈流程等,建立标签全生命周期管理体系,与数据资产管理制度相统一,为标签在各层面的落地及管理提供建设依据。
3 指标分类
名称 | 分类 | 解析 | 作用/示例 |
---|---|---|---|
指标 | 结果型指标 | 时机:动作发生后 | 监控数据异常 |
指标 | 过程型指标 | 时机:动作发生中 | 可以通过运营策略影响过程指标 |
体系(维度) | 定性维度 | 文字类描述 | 城市,性别,职业 |
体系(维度) | 定量维度 | 数值类描述 | 收入,年龄 |
- T1指标:公司战略层面指标
- T2指标:业务策略层面指标
- T3指标:业务执行层面指标
5. 缓慢变化维
缓慢变化维: 简称SCD(Slowly Changing Dimensions),指一些维度随着时间而缓慢地变化(缓慢是相对事实表而言,事实表数据变化的速度比维度表快)。随着时间发生变化的维度称之为缓慢变化维
把处理维度表数据历史变化的问题,称为缓慢变化维问题,简称SCD问题
如根据用户维度,统计不同出生年份的消费金额占比。(80后、90后、00后)。
在统计后,用户可能去修改用户数据,例如:将出生日期改成了 1992年。此时,用户维度表就发生了变化,涉及到这个维度的统计需要重新统计。
以下为解决缓慢变化维问题的几种办法:
- 保留原始值
- 改写属性值
- 增加维度新行
- 增加维度新列
- 添加历史表(历史拉链表)