原文数据分析师对标签、指标、维度、字段等的思考(指标体系标签体系) - 知乎
1.前言
作为数据分析师工作中经常会接触要标签,指标,字段,维度,属性等,但它们之间有什么区别,怎么定义,相互之间有什么关联呢?这个问题,我无法作出直接的回答,也没想过去整理,归纳与总结,直到有一次领导问我相关问题,把我问蒙了,书到用时方恨少,都怪自己没有做过总结!
所以,经过上次的事件,周末我抽空花了时间查阅资料再结合自己的理解整理了一篇总结性文章。(属于个人总结,有不合理的地方,欢迎大佬到评论区指出,大家共同进步,谢谢!)
2.是什么
我们先对标签、指标、字段、维度、属性等下个定义,先解决是什么的问题?
2.1标签
标签的定义:用户标签是构成用户画像的核心因素,是将用户在使用某个产品时所产生的行为数据(注册,访问,浏览,点击,下单,注销等),通过分析提炼后生成具有差异性特征的形容词。
举例说明,最常见的:QQ的个性标签,微信好友的标签等
标签的分类:
(1) 按标签类别
统计类标签,规则类,机器学习类(参考赵宏田老师的《用户画像方法论与工程化解决方案》)
(2) 从维度来划分
用户属性类,用户行为类,用户消费类,风险控制类标签
2.2指标
指标的定义:指标是指将业务单元细分后量化的度量值,让复杂的业务流程可描述、可度量、可拆解,它是业务和数据的结合,是统计的基础,也是量化效果的重要依据。例如:达标率,合格率,成交量,退货率,次品率。
指标的分类:指标常用方法是指标分级方法和OSM模型
2.3维度
维度的定义:维度主要分为定性维度和定量维度。(1)定性维度,主要是偏文字描述类如省份、性别、活跃度等;(2)定量维度,主要是数值类描述如收入、年龄等,对定量维度需要做数值分组处理。
指标体系和标签体系是由不同的维度组成,而维度是指用户观察、思考与表述某事物的“思维角度”,没有维度,单纯说指标和标签是没有任何意义的。
2.4属性
属性的定义:事物的性质和关系,统称为事物的属性。
属性的分类:自然属性和社会属性
2.5字段
字段的定义:在关系型数据库中,表就是一个数据的集合体,可以理解就是一个二维数据表格。字段是指表格中的列,即具有相同属性的数据集合。每个字段都有相应的描述信息,如数据类型、长度,注释等,而且每个字段都必须有一个唯一的名称,称为字段名。如下图,三个字段:准考证,科目,成绩。在数据库中字段是最基础的数据,包含所有的指标数据和标签数据。
《潜意识:控制你行为的秘密》的作者蒙洛迪诺说,人做判断的时候有两种机制:
一种是“科学家机制”,先有证据再下结论
一种是“律师机制”,先有结论再去找证据
生活中大多数都是“律师机制”,先有结论再去找证据,对于本次讨论的标签、指标、字段、维度、属性。我觉得属于律师机制,数据分析最终是研究用户画像,用户画像就是给用户打各种各样的标签,标签由属性、指标和维度共同确定,怎么得到属性、指标和维度呢,最细的数据就是保存在数据库中的字段。
3.为什么
记得新版电视剧《亮剑》赵刚和李云龙有过一段对话:
团长李云龙:打仗就是打仗,哪有那么多弯弯绕?
政委赵刚:不解决为什么打仗问题,那不是瞎打么?
在知道标签、指标、字段、维度、属性是什么之后,还要明白建立标签体系和指标体系的意义和目的?
主目标:一切为了发展
次级目标:BI报表,经营分析,精准营销,个性化推荐等等服务于业务
4.怎么做
知道是什么,为什么?接下来怎么落地呢,就要解决怎么做的问题?怎么做是个大命题,这不是一个人的能做的,如下是一个简单的人员配置表。
当接到任务时,提醒自己不要慌!我们自己要知道是什么,为什么,至于怎么做就看自己处于什么角色,不要求啥都会,只需要处理好自己角色分内的事情之后,在多了解其他角色的工作就已经很优秀了。
5.总结
本文主要从标签,指标,字段,维度,属性,是什么,为什么,怎么做?展开论述,探讨了是什么的,明确标签,指标等具体定义,明确建设指标体系和标签体系的意义和目的,接着简要说明了这么做的问题,怎么做是个大命题,我们要清楚自己在其中参与的角色,起到什么样的作用,在完成任务的同时思考怎么做的更好就已经很优秀了。