一、核心注意
- 保密原则:原则上不提供明细信息,注意公司的数据保密要求,最小化输出原则
- 数据口径:数据错误是分析师大忌,一定要确认清楚口径,必要时发邮件
- 结论总结:不要只分析数据,要输出结论
二、任务沟通确认
- 目标沟通:背景如何,要达到什么目标,结果给谁看,要用于做出什么决策
- 分析重点确认
- 输出方式:excel,数据看板,PPT等
- 时间节点
- 统计时间段和口径
- 优先级确定
- 业务经验了解
(1)业务细节沟通业务预期的数据量级
(2)业务对结果的预期和历史经验
(3)以前是否有类似数据统计&有相关文档可参考
是否有其他与此相关分析,数据和结论对不上是大忌,尽量提前了解已有的分析。 - 数据经验同步
(1)已知分析经验口径和方法和业务深入沟通,避免返工或无用输出。
(2)常见业务注意事项沟通采集点统计有几种不同的口径,需要哪一种。
比如poi可以按照shop,点,任务等几种统计方式
(3)数据量级和分析可行性同步
某些数据量级可能较小,可能存在问题,提前向业务说明,比如设备信息覆盖度
是否有报表已经可以满足业务需求,或者在报表里做微小改动可满足
三、分析数据提取
- 数据复用
代码开发不要重复造轮子可以咨询可能了解的人,或者在群里吼下,有没有可用的中间数据,不用自己从头了解 - 需要注意的坑
也可以询问下了解的人 - 初筛数据注意
(1)初筛数据量级是否达到要求,是否要增加数据量或者改变统计口径
(2)数据分布是否正常
(3)是否有key重复的问题,比如一个设备有多行记录,关联会造成数据倾斜&数据错误
(4)异常数是否有脏数据、异常数据要剔除
(5)最近是否有压测等脏数据影响
(6)最近是否有某个业务数据异常,要和业务沟通说明 - 建立分析中间表
(1)中间表跑大数据量最好建立中间表,特别是能极大压缩数据量级
(2)初筛代码最好不要太复杂,复杂逻辑放到中间跑跑出来之后解决
(3)需要的字段是否都做好,方便提取的常用字段也可以放在中间表,方便需求变更
(4)数据量太大时,不要select *,减少字段量能更快跑出结果
(5)中间数据核查是否有异常数据分布不合理
(6)是否有字段为空,或者比例异常
四、分析数据
- 方法论
根据分析目标确认用哪些方法,哪些角度分析,评估是否能够达到分析目标 - 分析清单
确认要分析的内容,根据时间点和数据熟悉程度,适当增加和缩减分析量级。
明确分析能够达到目标再开工,磨刀不误砍柴工。 - 数据分析进度把控
(1)根据清单分析,不要跑偏
(2)遇到数据问题评估问题量级,反馈给业务,评估是否要调整分析方案,不要陷入局部分析中
(3)需要核查数据是否有错。特别是和常识不符的结论,或者重大方向决策的数据,一定是多方数据佐证。 - 结论总结
夸张的说法:一百个数据,有1/3也就是三十多个数据有用,从中能够总结十条左右有价值结论,有三条能写到首页结论,有一条能被老板采纳用作决策,就是一个好的分析报告了
一定要总结再总结,输出目标需要的结论,不要罗列数据 - 反向梳理论证数据
(1)有了结论还没结束,要反向梳理哪些数据最能佐证,故事线如何
(2)剩下的干扰数据主动扔到附录,但不要扔,原始数据要保留,因为有时需要佐证结论,或者看明细 - 问题核对
(1)如果存在问题,需要找相关人核对,弄清楚问题
(2)如果问题影响较大,和相关人沟通解决方案
五、分析报告
- 报告结果检查
主要数据分布是否正常,比如城市、场景等数据分布是否ok
数据是否能对上
比如总量数据和分布数据,量是否能对上,对不上原因需要记录or核查 - 沟通流程
先内部核查数据ok,再把主要统计结果,和业务接口人确定ok,再邮件输出报告 - 报告输出
(1)背景和口径说明
统计口径备注:取数时间,取数逻辑(对外报告不写详细逻辑,详细逻辑自己记录)
(2)开头输出主要结论:邮件或文档开头,写明主要结论,建议方案,下步计划等
(3)详细数据写清细节结论
(4)特殊指标逻辑备注,可以写在每页数据下方
(5)附件配上excel和相关统计数据
六、明细数据输出
- 保密规范
(1)遵循公司规范,明细数据输出规范。加密规范等。严格注意可能违反数据相关的规定。
(2)最小化输出:数据包仅发给对应接口人,再邮件通知大部分相关人,说明取数口径,量级,字段,以及数据提供给了谁。 - 数据检查
(1)明细数据检查点检查商务需求字段是否都有了,不提供商务要求外字段
(2)如果没有特别要求,一般提供以下字段取有效的数据
(3)统计总量是否正常,城市,场景等分布,可参考系统报表每个字段空值比例,是否正常,是否有0等异常值,比如:覆盖度太低等
(4)随机抽取几百条记录,查看是否有问题
(5)问题数据以及错误率沟通确认,错误最好是在99%以下 - 数据留档
Hive中保留提供的数据表至少1个月,并记录在文档中 - 数据样例提供
对明细数据可抽取X条记录,给业务方验证格式是否正常,数据量级验证是否正常
七、问题反馈
很多时候针对报告都有业务问题或者想深入分析
- 数据有问题优先级最高
(1)业务反馈问题跟进客户需求为最高优先级
(2)数据问题跟进针对反馈的记录,每条记录要核查对应原因并记录,要追根溯源
(3)不能出现:主要因为XXX,大概是某个问题,可能别的团队的问题 - 深入分析
(1)相当于新需求,根据前面流程评估项目周期
(2)不要陷入不断的看一看ABCDE。。。数据,从而无休止的分析,明确分析目标,只要达到目标就可以告一段落
(3)如果有数据发现导致确实要深入分析,可新开一个专题报告
八、复盘总结
- 报告归档
需要让大家知道的结论要重点写上 - 数据源归档
- 分析中间数据归档
所有数据都要归档,也就反推自己,把每个数据口径结论写清楚,不要弄一堆csv谁也看不懂 - 数据坑归档
- 总结归档
(1)可以提升效率的方法
(2)可以建设的基础数据
(3)方法论总结提炼