一、数据分析流程
大概流程是这样的,数据采集-指标建模-观测数据-数据分析-驱动业务
- 数据采集,做一次比较靠谱的数据分析自然要有数据的支持。那么在数据的采集上,我们需要注意的是数据必须和业务有关,数据的采集被数据指标所驱动。
- 指标建模,指标建模是数据分析中的重中之重,直接决定了你这次分析的成败。因为所有的决策最后都是根据这些指标得出来的。
- 观测数据,指标建立完毕,那么需要对采集到的数据进行观察,看哪些数据通过计算清洗可以得出我们想要的数据。
- 数据分析,包含数据清洗、数据可视化、数据报表等工作
- 驱动业务,数据分析师存在的意义就是为公司解决问题,让数据产生价值,所以最后的决策一定是能驱动公司业务发展,指出方向的。
二、常用的数据指标
1.用户数据
- 存量:DAU&MAU
- 增量:新增用户
- 健康程度:留存率
- 从哪儿来:渠道来源
2.行为数据
- 次数/频率:PV、UV、访问深度
- 路径走通程度:转换率
- 做了多久:时长
- 质量:弹出率
3.业务数据
- 总量:GMV 、访问时长
- 人均:ARPU、ARPPU、人均访问时长
- 人数:付费人数、播放人数
- 健康程度:付费率、付费频次、观看率
- 被消费对象:SKU视角、被消费内容视角
三、指标定义认知
3.1DAU&MAU
日活跃用户和月活跃用户,日活跃用户即每日上线用户数量,月活跃用户<=最大日活+新增用户<=总用户量。月活跃用户数即当月至少活跃一次的用户总数,也就是需要去重,这样的数据才是有意义的。
怎么定义活跃用户?
- 基于事件上报:这个用户主动产生了一个行为,被数据系统统计下来,则是一个活跃用户。这种方式记录活跃用户,需要确保用户主动上报事件,而不是系统后台自动上报事件。
- 关键事件:用户执行了关键事件,则是一个活跃用户。这种方式判断,需要建立一个关键事件的列表,由于这个列表一定是一直不断更新迭代的,所以维护成本比较高,而且也存在一定的沟通成本。
怎么定义用户?
产品与用户之间隔了一层设备,一个人拥有的可能不止一台设备,我们需要通过哪些维度去判定这就是我一个用户呢?
- 基于用户ID:这种做法是比较常见的,通过去识别每位用户的唯一ID,判断是否为用户。但这种方式就排除了未注册的用户,存在一定的局限性。
- 基于设备:像web产品中,可以在浏览器的cookie里添加标识,以此判断用户。但是也存在局限,如果设备主人的朋友或亲人使用这台设备使用产品,则系统认定的用户还是设备主人,但其实已经换人了。
3.2如何理解新增用户
选择合适的节点,定义“增”
点击渠道链接 | 下载 | 安装/启动 | 激活/注册 | |
---|---|---|---|---|
优势 | 统计渠道商简单 | 真正反映了用户 的实际意愿 | 便于产品方统计 | 最真实有效的数据 |
劣势 | 离激活环节最远,转化率太差,无法保证 | 数据源可信度存疑,无法避免刷量 | 渠道不一定配合,仍然无法避免刷量 | 渠道费用激增,统计复杂 |
适用场景 | 量级不大/免费渠道,不需要做精细打算 | 渠道依赖应用商店,且没有更好的渠道 | 己方比较强势,可给渠道制订计划规则 | 对用户质量要求很高,产品的ARPU高 |
用适当的方法判别新
基于设备:Mac、Android、web各有方法判别
基于账号关联:与后台账号进行比对
3.3理解留存
为什么要看留存?
- 了解一个渠道的质量--日留存,以日为单位,衡量这个渠道来的用户当下&接下来的表现。
- 观察整个大盘--周留存/月留存
3.4PV、UV、访问深度
PV:Page Views页面浏览量(次数,不去重)
UV:Unique Visitors 独立访问数 (人数,去重)
PV/UV:人均行为次数
访问深度:可以用关键某些关键行为的访问次数或将产品功能分为几个层级,以用户访问到的层级做计算
3.5访问时长
为何统计访问时长?
- 通过统计特殊事件,支持业务需求
- 侧面反应产品质量
3.6弹出率
定义:是指一个用户来了之后,立马就走了的比率。
3.7常用的业务数据指标
直接付费 | 适用场景 | 解决什么问题 | 非直接付费 |
---|---|---|---|
GMV | 总量 | 描述交易的金额总规模 | 目标完成数(报名、点击、分享……) |
ARPU/ARPPU | 人均 | 单个用户的贡献程度 | 人均访问时长 |
付费人数 | 人数 | 描述愿意为服务付费的人数总规模 | 完成人数 |
付费率、付费频次 | 健康程度 | 描述总体上的用户付费意愿评判一个服务的健康程度 | 完成率 |
SKU视角 | 被消费对象 | 需要分析消费品本身的运营情况时 | 被消费内容视角 |
四、选好数据指标的通用方法论
1.从业务的最终目的出发,梳理业务模块
常见的拆解角度:如何搞大/搞频繁 | 有困难靠什么特色方式解决(工具)
2.判断业务模块所属类型
产品对用户的价值来自产品本身 | 产品对用户的价值来自其他资源 | |
---|---|---|
省时间 | 工具模块 | 交易模块 |
杀时间 | 内容浏览模块 | 社区模块 |
3.根据业务模块所属类型选择数据指标
通用指标 | 描述了什么 | 举例 | 做好了就能怎样 |
---|---|---|---|
使用量 | 累积量、投入程度 | 拍照、笔记 | 用户黏性强 |
目标达成率 | 是否正常运转 | 支付、搜索 | 满意度高 |
频次 | 能不能让用户养成习惯 | 闹钟 | 养成固定习惯 |
通用指标 | 描述了什么 | 举例 | 做好了能怎么样 |
---|---|---|---|
详情页转化率 | 核心场景转化效率 | 电商 | 更容易卖 |
金额 | 总的交易规模 | 电商、知识付费 | 卖更多 |
客单价 | 单个用户价值 | 奢侈品海淘 | 卖更高价 |
复购率 | 收入的持久度 | 订阅式购物 | 卖更多次 |
通用指标 | 描述了什么 | 举例 | 做好了能怎样 |
---|---|---|---|
浏览数 | 累积量 | 头条类 | 有多少人阅读 |
浏览广度 | 覆盖内容库存情况 | 视频网站多个频道 | 库存利用率更高 |
浏览时长 | 占据用户多少时间 | 抖音、快手 | 减少竞品使用时间 |
内容互动 | 用户对内容的情感 | A站、B站 | 用户黏性 |
通用指标 | 描述了什么 | 举例 | 做好了能怎么样 |
---|---|---|---|
发布量 | 用户创作内容的数量 | 贴吧、FB | 更多的话题源头 |
互动量 | 用户间的互动次数 | 微博 | 社区更具有活力 |
关系密度 | 用户间的关系 | 微信 | 更有可能长期留存 |
五、数据工具
如何选取数据工具?
- 根据业务核心划分
- 根据公司阶段划分
探索期 | 成长期 | 成熟期 | 衰退期 | |
---|---|---|---|---|
业务问题 | 刚起步不完善,流程未定型,常变动 | 追求增长、同时补偿前期债务 | 稳定,没有新的突破点 | 用户对产品渐渐失去兴趣,开始流失 |
待解决需求 | 验证业务是否可行、需求是否可行 | 寻找用户量和业务量规模化增长的方法 | 业务流程理的更顺、用户群体拆得更细 | 延长产品生命周期、尽力挖掘用户剩余价值及可能的新需求 |
所需的数据工具 | 计数 | 流量导向 内容导向 用户导向 业务导向 | 用户导向 业务导向 | 用户导向 |
六、常见的数据分析套路
1.计数
解决的问题:计数、特别基本的分析功能
优势:快,逻辑简单
2.流量导向
谁来了-从哪来-来了干什么-有没有达成目标
解决的问题:流量依赖性业务,如电商或一锤子买卖
优势:将流量入口分析的较为细致
3.内容导向
- 哪些资源被消费
- 被消费的情况如何
- 内容表现质量如何
解决的问题:以内容为核心资源的,如媒体、视频网站
优势:能从内容的视角描述其表现
4.用户导向
- 用户来了干什么?
- 用户还会不会再来?
- 用户在哪流失?
- 用户都是啥样的?
解决的问题:需要关注隐藏在报表、总量下面的,用户具体的行为
优势:从用户视角描述单个用户的行为轨迹
5.业务导向
解决问题:
- 流程是否顺畅?
- 规模/频次如何?
- 异常原因何在?
计数 | 流量 | 内容 | 用户 | 业务 | |
---|---|---|---|---|---|
关键 | 快速验证 | 渠道依赖 | 内容质量 | 用户为王 | 商业本质 |
特点 | 简单、快 | 能将流量入口分析 得较为细致 | 能从内容的视角描述其表现 | 从用户视角描述单个用户的行为轨迹 | 从商业逻辑上还原整个业务流程,可接入线上线下数据 |
常见应用场景 | 单纯计数和固定报表 | 流量依赖性业务,如电商、或者一锤子买卖 | 以内容为核心资源的,如媒体、视频网站 | 在乎用户长期价值,企业核心资产是用户 | 业务逻辑复杂,需要跟踪周期长 |
七、常见的数据分析方法
7.1对比分析
怎么比:按维度进行划分对比,如时间、类别,同比、环比
比什么:本身具备价值的数字(如:销售金额、阅读数)、在具体环境中看比例才具备对比的价值(活跃占比、付费占比、注册转化率)
和谁比:本身、竞品对象、竞争行业
7.2多维度拆解
定义:用不同的视角去拆分、观察同一个数据指标
适用场景
分析单一指标的构成 | 针对流程进行拆解分析 | 还原行为发生时的场景 |
---|---|---|
分栏目的播放量 | 不同渠道的浏览、购买转化率 | 打赏主播的等级、性别、频道 |
新老用户比例 | 不同省份的活动参与漏斗 | 是否在WIFI或4G化境下 |
运作原理:指标/业务流程需要按照多维度拆分,来观察变动
7.3漏斗观察
定义:一连串的向后影响的用户行为
运行原理:通过一连串的向后影响的用户行为来观察目标
适用场景:有明确的业务流程和业务目标
建立漏斗时容易掉的坑:
- 漏斗一定是有时间窗口的
应根据业务的实际情况,选择对应的时间窗口
按天:对用户心智的影响只在短期内有效(如短期活动)
按周:业务本身复杂/决策成本高/多日才能完成
按月:决策周期更长(如装修买房)
- 漏斗一定是有严格顺序的
- 漏斗的计数单位可以基于用户、也可以基于事件
问:那么什么时候应该基于用户?什么时候基于事件?
答:按自己所在角色分析,看哪项指标对我比较重要
eg:有一门线上课程,我是课程的负责人,则我应该关心的是每有多少人选择我这门课,所以基于用户;我是这个产品的PM,我关系的是为什么访问课程页面的人次比实际用户数多?为什么这么多用户没有在第一次的时候做出选择?为什么后面的课程有用户没有选择支付?所以用的是基于事件。
- 结果指标的数据不符合预期
是否只有这一个漏斗能够到达最终目标?
7.4分布分析
运作原理:从事件在不同维度中的分布来观察,以便理解该事件除了累计数量和频次,更多维度的信息
适用场景:
- 已经知道一群用户完成了指定事件,但需要对用户群体进行细分,按不同维度和价值将他们划分为不同群体,分别进行后续的维护或分析
- 已经知道单个事件的完成次数,希望知道这些次数拆分到不同维度上后的分布情况,以便更清晰地了解该事件的完成情况
常见的群体划分:事件频率、时间分布、消费金额区间
7.5用户留存
适用场景:验证产品的长期价值、评估产品的功能黏性
计算方式:
- 一般的计算方式:将某一段时间段的用户ID与另一段时间的用户ID做交叉去重
- 精准留存:过滤进行过指定行为的用户ID,再计算;将用户分成不同的群体之后,再观察其留存之间的区别
7.6用户画像
运行原理:通过对用户各类特征进行标识,给用户贴上各类标签,通过这些标签将用户分为不同的群体,以便对不同的群体分别进行产品/运营动作
常见特征:基础属性、社会关系、行为特征、业务相关
标签来源:直接填写、通过用户自己的已有特征推得、通过用户身边的人推断
适用场景:市场营销、个性化运营、业务分析、用户研究
7.7归因查找
目的:找出事件发生的主要原因
末次归因:转化路径短,且事件关联性强的场景
递减归因:转化路径长,且目标事件差异不大,没有完全主导
首次归因:强流量依赖的业务场景,拉人比后续所有事都重要
7.8路径挖掘
适用场景:有明确的起始场景、有明确的结果目标
运作原理:逐级展开某一事件的前一级(后一级)事件,观察其流向
7.9行为序列
运作原理:将单一用户的所有行为以时间线的形式进行排列
适用场景:
- 观察掩盖在统计信息下更细致的信息,还原用户具体的使用场景
- 通过观察具体的行为特征,找到提升产品价值的机会点
八、数据采集
1.数据埋点
要想得出数据埋点是需要做归纳的,最好做一个指标建模
2.明确埋点需求
一般满足WWWHW五要素,也就是要满足某个用户(who)在某个时间(when)、某个地方(where),以某种方式(how)完成了某个具体的事情(what)
1.怎么解决确认用户的问题(Who)?
认设备:
- web:cookie
- IOS:UUID、IDFV、IDFA
- Android:UUID、Android ID
认人:
线上:UID、微信等第三方Union ID/Open ID、手机号、身份证号
线下:手机号、身份证
2.怎么确认时间(When)?
哪个时间点:事件发生-事件上报-事件接收-事件入库
哪个时区:unix时间戳、时区转换
3.怎么确认地点(Where)?
GPS、IP、用户自主填写
4.怎么做的(How)?
- 用的什么设备?
- 装的哪个版本?
- 操作系统是什么?
- 用的什么浏览器?
- 用的4G还是WIFI?
- 从哪个页面跳过来的?
5.确认做了什么事(What)?
购买行为、付款行为、下单行为、退款行为、申请售后行为等……
3.形成需求文档(讲明白)
将埋点需求处理成文档,跟研发沟通清楚,研发的思考方式和你的思考方式绝对是不一样的。