1.指标数据分析方法
** 1)字段分析**
确定指标属性字段后应对指标进行字段分析,完成指标的业务定义和技术定义。业务字段分析需要说明指标名称,指标含义,计算逻辑,指标单位和分析展现频度等。技术字段分析需要说明指标口径规范(如数据来源,采集频率,加工规则)和技术属性(数值限制等)。将指标及字段形成一张总表,即指标字典。
还需要对指标字段数据类型进行分析,常见数据类型有文本输入,数值输入,日期型,单选型,多选型,图片类等。不同的数据类型会有不同的属性设置。
** 2)计算方式**
确定指标及其相应字段后应当对指标计算逻辑及方式进行说明,常见计算方式如下:
(1)平均数
一般指算术平均数。算术平均数是指,全部数据累加除以数据个数。它是非常重要的基础性指标。
几何平均数:适用于对比率数据的平均,并主要用于计算数据平均增长(变化)率。
加权平均数:普通的算术平均数的权重相等,算术平均数是特殊的加权平均数(权重都是1)。
(2)百分比与百分点
百分比表示一个数是另一个数的百分之几的数,也叫百分率。
百分点是用以表达不同百分数之间的“算术差距”(即差)的单位。
用百分数表达其比例关系,用百分点表达其数值差距。1个百分点=1%,表示构成的变动幅度不宜用百分数,而应该用百分点。
(3)比例与比率
两者都是相对数。
比例是指总体中各部分的数值占全部数值的比重,通常反映总体的构成和结构。
比率是指不同类别数值的对比,它反映的不是部分与整体之间的关系,而是一个整体中各部分之间的关系。这一指标经常会用在社会经济领域。
(4)基线和峰值极值分析
峰值:增长曲线的最高点(顶点),如中国总人口2033年将达到峰值15亿,性别比严重失衡。
拐点:在数学上指改变曲线向上或向下方向的点。在统计学中指趋势开始改变的地方,出现拐点后的走势将保持基本稳定。
(5)归一化
数据指标属性的值,有时是有单位的,称作量纲数据。不同评价指标往往具有不同的量纲,数据之间的差别可能很大,不进行处理会影响到数据分析的结果。为了消除指标之间的量纲和取值范围差异对数据分析结果的影响,需要对数据进行标准化处理,就是说,把数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。
归一化是数据标准化中最简单的方式,目的是把数变为(0,1)之间的小数,把有量纲的数据转换为无量纲的纯数量。
2.指标溯源方法
数据指标一般分为基础指标和复合指标,基础指标是指体系中不能再进一步分解的指标,复合指标由基础指标计算组合而来。如:营业收入=主营业务收入+其他业务收入,‘营业收入’是复合指标,‘主营业务收入’、‘其他业务收入’是基础指标。基础指标需要明确具体取数逻辑.通过指标结果数据方向分析整个数据加工融合的过程,识别指标生产过程涉及的数据实体及需要该数据那些属性支撑。
数据源梳理需要确定数据是线下采集还是线上采集、具体采集那些属性.明确构成指标的原始数据如何获取、从那个系统或部门获取,获取那些熟悉。如果需要从系统获取数据,需要明确接口、权限、表结构、表字段等信息如果需要线下采集需要明确从具体那个部门,采集那些表单,需要对涉及表单进行分析,确认线下采集表单的规范性及完整性。
通常在指标数据梳理过程中,会形成指标数据需求清单,将指标计算所需要的业务属性进行梳理和呈现,便于后续从IT维度来准确获取所需要的数据。