【项目跟进】如何跟进一个数据分析任务

一、核心注意

  • 保密原则:原则上不提供明细信息,注意公司的数据保密要求,最小化输出原则
  • 数据口径:数据错误是分析师大忌,一定要确认清楚口径,必要时发邮件
  • 结论总结:不要只分析数据,要输出结论

二、任务沟通确认

  • 目标沟通:背景如何,要达到什么目标,结果给谁看,要用于做出什么决策
  • 分析重点确认
  • 输出方式:excel,数据看板,PPT等
  • 时间节点
  • 统计时间段和口径
  • 优先级确定
  • 业务经验了解
    (1)业务细节沟通业务预期的数据量级
    (2)业务对结果的预期和历史经验
    (3)以前是否有类似数据统计&有相关文档可参考
    是否有其他与此相关分析,数据和结论对不上是大忌,尽量提前了解已有的分析。
  • 数据经验同步
    (1)已知分析经验口径和方法和业务深入沟通,避免返工或无用输出。
    (2)常见业务注意事项沟通采集点统计有几种不同的口径,需要哪一种。
    比如poi可以按照shop,点,任务等几种统计方式
    (3)数据量级和分析可行性同步
    某些数据量级可能较小,可能存在问题,提前向业务说明,比如设备信息覆盖度
    是否有报表已经可以满足业务需求,或者在报表里做微小改动可满足

三、分析数据提取

  • 数据复用
    代码开发不要重复造轮子可以咨询可能了解的人,或者在群里吼下,有没有可用的中间数据,不用自己从头了解
  • 需要注意的坑
    也可以询问下了解的人
  • 初筛数据注意
    (1)初筛数据量级是否达到要求,是否要增加数据量或者改变统计口径
    (2)数据分布是否正常
    (3)是否有key重复的问题,比如一个设备有多行记录,关联会造成数据倾斜&数据错误
    (4)异常数是否有脏数据、异常数据要剔除
    (5)最近是否有压测等脏数据影响
    (6)最近是否有某个业务数据异常,要和业务沟通说明
  • 建立分析中间表
    (1)中间表跑大数据量最好建立中间表,特别是能极大压缩数据量级
    (2)初筛代码最好不要太复杂,复杂逻辑放到中间跑跑出来之后解决
    (3)需要的字段是否都做好,方便提取的常用字段也可以放在中间表,方便需求变更
    (4)数据量太大时,不要select *,减少字段量能更快跑出结果
    (5)中间数据核查是否有异常数据分布不合理
    (6)是否有字段为空,或者比例异常

四、分析数据

  • 方法论
    根据分析目标确认用哪些方法,哪些角度分析,评估是否能够达到分析目标
  • 分析清单
    确认要分析的内容,根据时间点和数据熟悉程度,适当增加和缩减分析量级。
    明确分析能够达到目标再开工,磨刀不误砍柴工。
  • 数据分析进度把控
    (1)根据清单分析,不要跑偏
    (2)遇到数据问题评估问题量级,反馈给业务,评估是否要调整分析方案,不要陷入局部分析中
    (3)需要核查数据是否有错。特别是和常识不符的结论,或者重大方向决策的数据,一定是多方数据佐证。
  • 结论总结
    夸张的说法:一百个数据,有1/3也就是三十多个数据有用,从中能够总结十条左右有价值结论,有三条能写到首页结论,有一条能被老板采纳用作决策,就是一个好的分析报告了
    一定要总结再总结,输出目标需要的结论,不要罗列数据
  • 反向梳理论证数据
    (1)有了结论还没结束,要反向梳理哪些数据最能佐证,故事线如何
    (2)剩下的干扰数据主动扔到附录,但不要扔,原始数据要保留,因为有时需要佐证结论,或者看明细
  • 问题核对
    (1)如果存在问题,需要找相关人核对,弄清楚问题
    (2)如果问题影响较大,和相关人沟通解决方案

五、分析报告

  • 报告结果检查
    主要数据分布是否正常,比如城市、场景等数据分布是否ok
    数据是否能对上
    比如总量数据和分布数据,量是否能对上,对不上原因需要记录or核查
  • 沟通流程
    先内部核查数据ok,再把主要统计结果,和业务接口人确定ok,再邮件输出报告
  • 报告输出
    (1)背景和口径说明
    统计口径备注:取数时间,取数逻辑(对外报告不写详细逻辑,详细逻辑自己记录)
    (2)开头输出主要结论:邮件或文档开头,写明主要结论,建议方案,下步计划等
    (3)详细数据写清细节结论
    (4)特殊指标逻辑备注,可以写在每页数据下方
    (5)附件配上excel和相关统计数据

六、明细数据输出

  • 保密规范
    (1)遵循公司规范,明细数据输出规范。加密规范等。严格注意可能违反数据相关的规定。
    (2)最小化输出:数据包仅发给对应接口人,再邮件通知大部分相关人,说明取数口径,量级,字段,以及数据提供给了谁。
  • 数据检查
    (1)明细数据检查点检查商务需求字段是否都有了,不提供商务要求外字段
    (2)如果没有特别要求,一般提供以下字段取有效的数据
    (3)统计总量是否正常,城市,场景等分布,可参考系统报表每个字段空值比例,是否正常,是否有0等异常值,比如:覆盖度太低等
    (4)随机抽取几百条记录,查看是否有问题
    (5)问题数据以及错误率沟通确认,错误最好是在99%以下
  • 数据留档
    Hive中保留提供的数据表至少1个月,并记录在文档中
  • 数据样例提供
    对明细数据可抽取X条记录,给业务方验证格式是否正常,数据量级验证是否正常

七、问题反馈

很多时候针对报告都有业务问题或者想深入分析

  • 数据有问题优先级最高
    (1)业务反馈问题跟进客户需求为最高优先级
    (2)数据问题跟进针对反馈的记录,每条记录要核查对应原因并记录,要追根溯源
    (3)不能出现:主要因为XXX,大概是某个问题,可能别的团队的问题
  • 深入分析
    (1)相当于新需求,根据前面流程评估项目周期
    (2)不要陷入不断的看一看ABCDE。。。数据,从而无休止的分析,明确分析目标,只要达到目标就可以告一段落
    (3)如果有数据发现导致确实要深入分析,可新开一个专题报告

八、复盘总结

  • 报告归档
    需要让大家知道的结论要重点写上
  • 数据源归档
  • 分析中间数据归档
    所有数据都要归档,也就反推自己,把每个数据口径结论写清楚,不要弄一堆csv谁也看不懂
  • 数据坑归档
  • 总结归档
    (1)可以提升效率的方法
    (2)可以建设的基础数据
    (3)方法论总结提炼
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值