数据开发经验总结-流程规范

1、如何校验数据的准确性

校验数据的准确性是数据开发过程中的一个重要步骤,以确保数据与实际情况一致。以下是一些方法和步骤,可用于校验数据的准确性:

1)制定数据验证规则
在数据开发完成后,首先是自查数据是否符合预期。包括数据类型、数据范围、格式、单位、以及空值和空值率等。例如,可以验证日期字段是否正确有效,货币字段是否有正确的货币符号,数值字段是否在预定范围内等(通过数据分布来校验,如最大值、最小值、平均值、空值率等);

2)比对参考数据
将数据与已知的参考数据进行比对。如果是重构的数据,可以原有数据进行比对,这里一般也是通过比对两份数据的分布情况(最大值、最小值、平均值、空值率等,对数据进行分段,不同分段的数据量进行对比);那么没有直接可以参考的数据,可以通过不同的加工方式,对比两份数据;

3)采样检验
从数据中随机抽取某一个机构/群体的数据,对数据进行汇总,然后对比;
从数据中随机抽取一些明细数据,看这些数据每一个指标是否加工正确;

4)重复校验
在数据正式上线前,还要让对应的业务同学进行数据校验核对,当确认无误后,才能上线生产;
5)建立数据监控
数据开发完,不是上线后就完事,需要建立完善质量监控,对数据进行定期的检查,以保证数据能够持续稳定正确的产出。

2、如何做好数据监控

1、明确数据质量标准和期望:
首先,需要明确数据质量的标准和期望。这可能包括数据的准确性、时效性、一致性、波动变化性等方面的监控要求。这些标准应该与业务需求和目标一致。

2、建立数据质量监控指标:
经过第一步的讨论,确定关键的数据质量指标,例如数据准确性、时效性、一致性等。这些指标应该能够量化数据质量,以便进行监控。数据量每天的波动不超过30%;

3、选择合适的监控手段:
选择适当的数据质量监控工具和技术,这里可以包含数据平台自带的功能,如智能化的监控手段(主键唯一,数据不为空),手工设置定制化的指标,如指标的空置率,数据量的波动大小限制。重要的数据任务,配置相对应基线和告警机制,保障数据质量,以便及时处理异常情况;

4、建立全链路的数据监控机制:
通过数据血缘,建立全链路的数据监控机制,从数据采集同步-分层数据加工-到应用,每层数据建立监控和告警,当上游数据出现异常,及时进行告警和拦截、避免下游任务消费;

5、建立自动化监控看板:
建立每天定时的数据质量监控看板,可以定期检查数据的产出情况,如产出时间、任务告警次数、失败次数等。生成监控报告,以便定期检查发现任务存在的问题,并及时进行优化;同时通过监控不断改进和调整监控规则;

6、数据质量异常问题的跟踪和记录:

站在整体团队的角度,需要对于发现的重大数据质量问题的事件,记录并且解决问题的方案。一、通过总结经验,避免同类问题的重复产生;二、有助于发现目前团队,数据质量监控流程存在的漏洞,及时采取补救措施;

总结:
数据质量监控是一个持续改进的过程。根据反馈和经验,不断改进数据质量规则和监控流程。

(数据质量检测和监控的核心工具——DQC和SLA,DQC和SLA

3、数据团队的价值如何体现

数据的最终价值集中体现在两个方面,一是助力业务增长和二是建立数据标准和流程,来降本增效;具体可以体现在以下3个方面:

3.1、助力业务增长**

数据的价值首要体现在,要能够助力业务增长。如果数据不能为业务增长提供价值,那么团队很容易就会边缘化了。那么数据如何促进业务增长,需要做好以下几个关键点:

1)了解业务当前的目标,今年重点KPI在哪里;
2)负责的业务板块,需要深入理解业务流程,运营模式,能够看清业务发展趋势,发现业务当前问题;
3)通过数据的支撑,落地并优化各类业务场景,这是关键;
4)了解业务季度/年终的考核指标,例如用户转化率,新户增长率等,密切联合业务、产品、运营等共同完成目标,团队作战。

3.2、建立数据流程,降本增效**

公司除了关心业务增长,第二关心的就是如何帮它省钱了。因此降低成本,提升效率亦是重点。一般来说,公司本身就存在很多问题是可以通过数据解决的。不过这块很多工作老板也就是看一眼,很难长久关注,做好了是应该的,做不好就要打板子。对于数据团队来说收益不如助力业务增长,但相对来说难度也会小一些。且对于公司来说很多工作要持续做才能起作用的,所以可以长久的做下去。几个关键点:

1)数据存储和计算资源的治理,随着业务快速发展,数据量也不断增长。通过建立流程规范化的存储和计算资源的治理规则,控制存储计算资源的增长率,降低数据应用的成本;
2)结合业务,对一些业务流程进行数据流程自动化的处理,降低人工操作,提高效率。例如对人工处理的数据分析看板进行线上流程化、审批的流程化;
3)风控类的一些需求,例如业务安全等;财务类、人事类等公司内部数据需求等;
降本增效目标很容易成为体现数据团队价值的一个突破口,应该不断寻找这样的机会。

3.3、数据框架的搭建和迭代**

对于数据团队来说,搭建一套稳定的数据架构,能够满足于业务未来3-5年的发展,这些工作是能体现数据团队技术能力的地方,平时也应把大部分的精力放在这里(在保障业务需求的前提下)。这里面有一些工作还是很有挑战的,如实时/离线的数仓架构,数仓建模,数据开发平台建设,数据接口API,abtest,Hadoop集群等。其中数仓建设,应该从全业务流程出发,拉齐团队内各业务的数据同学,建立起一致性的维度,统一的数据指标口径(消除数据指标的二义性),确保不同数据域建立的数据能彼此复用和流通。

3.4、关注数据行业的发展**

随着国家颁布《数据安全法》、《个人信息保护法》与《网络安全法》等,数据的发展也从裸奔的时代慢慢转变为数据合规、数据安全、数据隐私保护。对于数据的监控会越来越严格,在这种背景下,数据同学需要关注外部环境的变化,及时补充学习相关知识,数据加密、隐私计算、联邦学习等。

作为数据同学,这些相关内容是都要了解的,没有技术一切免谈。但不一定对所有的内容都擅长,对其中1-2项是要有深入研究的。总体来说,助力业务增长和降本增效指向业务目标,数仓建设指向技术目标。从价值上来说,业务增长+降本增效与日常工作大概是6:4或者7:3,但是从工作量上来说大概在3:7或者2:8。数仓建设是我们能够做好业务增长和降本增效的重要保障。俗话说地基不牢,地动山摇;但是如果目标不明确,只限于做技术性的研究,那数据团队的方向容易走偏,路容易走窄。如果只做业务需求也容易沦落为给他人取数的工具,这既不利于团队的发展,也不利于员工个人发展。

4、如何搭建数据指标体系

4.1、什么是数据指标**

数据指标有别于传统意义上的统计指标,它是通过对数据进行分析得到的一个汇总结果,是将业务单元精分和量化后的度量值,使得业务目标可描述、可度量、可拆解。数据指标需要对业务需求进行进一步抽象,通过埋点进行数据采集,设计一套计算规则,并通过BI和数据可视化呈现,最终能够解释用户行为变化及业务变化。常用的数据指标有PV、UV等。

4.1.2、用户画像、指标、标签的区别

用户属性标签可以分为社会属性标签、商业属性标签、内容属性标签、行为属性标签。将用户的多个标签整合以及可视化最终生成用户画像
标签用于描述事物的一个特征或标识,通常由简单的文字或符号组成,一般是不可量化的。标签是合成性思维、聚合式思维,讲究化零为整,将多个分散的指标综合加工得出概括性的结果;
指标是可拆解、可以量化,指标通常由名称和取值构成,名称是对事物的命名,取值是具体的数据表现。指标是生产性思维、拆解式思维,讲究化整为零,对事物进行多角度的描述。

指标是衡量目标的方法,指标由维度、汇总方式和量度组成,如下图所示:
在这里插入图片描述
比如,播放总时长是指用户在一段时间内播放音频的时长总和(单位:分钟)。按照上述拆解,维度是指筛选的一段时间,汇总方式为计算了时间长度的总和,而量度就是统一的单位—分钟数。

4.2、什么是指标体系?**

本质是将数据指标系统性地组织起来,对业务现状体系化的汇总。具体会按照业务模型、按标准对指标不同的属性分类及分层。能够系统全面反应不同业务类型、不同业务阶段的现状和问题。搭建系统的指标体系,才能全面衡量业务发展情况,促进业务有序增长。

4.3、数据指标体系搭建原则**

1)搭建指标体系要有目标
明确要分析解决的业务问题是什么,按照时间、渠道、区域等纬度拆分;
2)搭建指标体系要有重点
不能只是罗列指标,大量的指标构建耗时耗费资源。需要明确指标优先级,先看什么后看什么;
3)贴近业务才是最好的
指标体系不是越全越好,和业务最贴切的才是最好的;

4.4、怎么评价一套指标体系的好坏?

标准源自目标,目标源自问题。数据分析通常要解决的4类问题,分别是:描述现状、分析原因、预测未来、改善未来。我们可以将指标体系分为四个层次:

1、描述现状:这套指标体系,可以帮助我们基本还原业务整体的运营现状。

2、分析原因:这套指标体系,可以帮助我们对业务的变化进行归因,对问题进行定位。

3、预测未来:这套指标体系,可以帮助我们,进行假设分析,对未来做出一些预判。

4、改善未来:这套指标体系,可以帮助我们找到,改善业务的动作、策略、战略。具体而言,这套指标体系,可以围绕组织目标,找到某些人,驱使他们去做某些事(寻某人、行某事)。

一个可用的指标体系,至少要达到以上四个层次其中之一。能够达到的层次越高,这套指标体系能产生的价值越大。总而言之,一套好的指标体系,能够帮助我们实现4个目标:描述现状、洞察原因、预判未来、寻某人行某事。

4.4.2 如何设计综合评价指标

综合评价指标通常涉及多个维度和因素,这需要一种系统性的方法。以下是一些步骤:

1、明确评价目标:首先,明确你评价指标的目标是什么。不同的情境可能需要不同的评价标准。例如,你可能要评价一家公司的绩效、一项政府政策的效果,或者一项产品的质量。

2、选择合适的评价指标:选择与评价目标相关的合适指标。这些指标应该能够捕捉到你关心的方面,且有数据可用来支持评价。

3、权重各指标:为每个选定的指标分配适当的权重。这反映了不同指标对评价目标的相对重要性。权重可以是主观的,也可以是基于数据或专家意见的。

4、标准化指标:标准化各指标,以便可以将它们进行比较。这可以涉及将指标值归一化到相似的范围或使用Z分数等方法。

5、综合指标值:根据权重,将各指标值综合起来,得出综合评价的数值。一种常见的方法是使用加权平均,将各指标的值乘以其权重并相加。

6、可解释和可视化:解释综合指标的含义,以确保其他人理解评价的结果。可视化也是一种有用的方式,可以用图表或图形来呈现综合评价的结果。

7、定期评估:综合评价不是一次性的工作,而是需要定期更新和审查的过程。因为情境和需求可能随时间变化,所以你需要确保评价指标和权重仍然适用。

8、均衡利益相关者:如果评价指标涉及多方利益相关者,要确保他们的意见和反馈被纳入评价过程中,以提高评价的合理性和可接受性。

综合评价是一个复杂的过程,需要综合考虑多个因素。最终的综合评价结果应该有助于支持决策制定和目标实现。

4.5、如何设计和落地指标体系?

指标体系的搭建分为两大步骤:设计指标体系和落地指标体系。

4.5.1. 如何设计指标体系?

1)需求来源
主要需求来源随着产品生命周期而改变。搭建数据指标根据数据现状分为初中后三个阶段。首先要明确的是先有目标方案后再有数据指标。

在数据指标搭建初期以产品战略目标为主,优先搭建北极星指标的全方位指标监控;中期以业务驱动为主,搭建指标衡量现有业务,业务驱动直接获取到的指标一般是二级指标,需要整合到指标模型里面去;到了后期,此时各数据指标已经搭建的差不多了,是时候根据模型查缺补漏,搭建针对产品的指标闭环,通过数据来反向推动产品的迭代优化。

2)确定一级指标
一级指标其实就是反映产品在各个重要方面的运营情况怎么样,把对用户的运营当成一个流水线,围绕着用户生命周期即可挖掘到一些重要的一级指标并自然而然的形成闭环。

在众多指标模型中AARRR模型能很好的概括用户的生命周期,美中不足的是遗漏了用户流失这一环节,个人觉得AARRRR比较能完整概括用户生命周期,即Acquisition(获取)、Activation(激活)、Retention(留存)、Revenue(收入)、Referral(自传播)、Recall(召回)。

在搭建指标体系前,我们可以利用“指标金字塔”的指标分层概念来拆解指标,梳理搭建指标体系的整体思路。
在这里插入图片描述
在了解指标金字塔概念后,我们就将分别理解、寻找整合核心指标(一级)、业务指标(二级)、操作指标(三级)。围绕这六大方面,可以拓展以下一级指标(只是举例一些通用指标,具体的一级指标可根据具体业务进行定义):
在这里插入图片描述
3)得到二级指标
二级指标由一级指标衍生而来,为了实现一级指标,企业会采取一些策略,二级指标通常与这些策略有所关联。可以简单理解为一级指标的实现方式,用于替换定位一级指标的问题。

二级指标的作用就是将一级指标的涨跌落实到具体的业务部门或者是责任人,通过成分拆解我们可以从一级指标得到对应的二级指标。例如收入这个一级指标,通过成分拆解可以分为广告收入和内购收入等。

4)得到三级指标
三级指标的作用正是指导该责任方去定位具体问题,进而修复问题。

通过对二级指标的路径拆解即可得到三级指标,一线人员可通过三级指标的具体表现快速做出相应的动作,所以三级指标的要求是尽可能覆盖每一个关键路径上的关键动作。

这里继续拿内购收入这个指标举例,通过路径拆解,最终促成内购的关键行为路径是:浏览商品、加入购物车、提交订单、支付成功。

4.5.2. 如何落地指标体系?

1、明确分析目标
进行数据指标拆解的第一步就是明确要分析的目标。例如现在有两个目标需要达成:
在这里插入图片描述
2、确定问题
在明确分析目标后,就需要确定为了达成该目标,需要提出围绕该目标需要解决的问题,可以使用思维脑图,写出在看到该目标后产生的问题。
在这里插入图片描述
3、拆解问题 & 确定计算公式
在这里插入图片描述
4、拆解指标 & 拓展维度布局
计算方式确定,就可通过分析组成这些计算公式的指标来探究影响其的原因,比如销售额 = 单价 * 数量,那么就可从「单 价」、「数量」来分析销售额变动,以一个指标为定量,分析对比其他指标变化。同时以计算公式结果为指标,拓展维度(比 如地区、时间、品类等等)来探究不同维度下的指标差异。
在这里插入图片描述
5、设计数据埋点

5、指标异动类问题分析框架

在这里插入图片描述

5.1 框架

分析框架主要分4部分:
明确定义、问题定位、指标拆解、原因分析

1、明确定义
私以为,做一个数据分析师很重要的一点,就是明确定义。在工作上,如果和业务方对需求的定义不统一,那我们的辛苦工作往往会白给;另一方面,在业务方提需求后,明确他们的核心诉求(真正的需求),也是很重要的。

比如引言中“航班公司觉得自己的某个航线经营状况不好,怎么利用我们的数据帮助他们找原因”的问题,我们就需要先明确“经营状况不好”的定义,是横比(其他公司、其他航线)还是纵比(历史经营状况)?

2、问题定位
在这里插入图片描述
3、指标拆解

1)分析框架:指标的公式拆解方法,将题中的指标拆分为一些指标的加减乘除。(二八原则:指标有很多种拆解方法,需要选择最“主要”的指标);

2)逻辑:上述拆解方法的局限性,如:
a、指出假设缺陷:在某些情况下,某种假设会使得数值有偏差
b、指出分布缺陷:在某些情况下,数据分布不均匀会导致数值有偏差
c、估算保守/激进:在这种框架下,是得到真实数据的上界还是下界

4、原因分析
在这里插入图片描述
主要分为外部原因和内部原因分析;
外部原因分析比较成熟的方法论是PEST,即政治、经济、社会、技术。“产品调研方法论”是参考产品调研的步骤(市场、竞品、用户调研),但这个方法论是我自己想的,不能算是成熟的方法论。

5.2、例题

网站销售额下降怎么分析:

1、首先要定位到现象真正发生的位置,到底是谁的销售额变低了?这里划分的维度有:
1)用户(画像、来源地区、新老、渠道等)
2)产品或栏目
3)访问时段

2、定位到发生未知后,进行问题拆解,关注目标群体中哪个指标下降导致网站销售额下降:
1)销售额=入站流量下单率客单价
2)入站流量 = Σ各来源流量转化率
3)下单率 = 页面访问量
转化率
4)客单价 = 商品数量*商品价格

3、确定问题源头后,对问题原因进行分析,如采用内外部框架:
内部:网站改版、产品更新、广告投放
外部:用户偏好变化、媒体新闻、经济坏境、竞品行为等

6、数据治理

《DAMA数据管理知识体系第二版之数据治理》,DAMA提到的数据治理的定义、驱动、目标,原则、政策、标准、程序、组织、角色、专员等概念。
数据治理
数据治理框架

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值