数据分析必备原理思路(二)


三、主流的数据分析方法与框架使用

在这里插入图片描述

1. 五个数据分析领域关键的理论基础

(1)大数定律

  • 指大量重复某一实验时,最后的频率会无限接近于事件的概率。
    • 数据的样本量越大,我们预测和计算的概率就越准确
    • 数据的样本量越小,我们的各种预测和计算就越有可能失效

  • 实际业务中遇到样本量很小的情况怎么办?
    • 1.逃避:果断跳槽,去业务成熟,数据量级更大公司
    • 2.主客观相结合:深入业务,从用户视角思考问题,广泛收集信息,不仅仅从数据得出结论
    • 3.carry全场:想方设法把公司的业务和数据建设搞上去,数据量级自然会提升
      无论哪种方法,请牢记小样本量下预测失效是客观定律,这个规律不以领导更不以你我的意志为转移,时刻提醒自己,一定要对小样本量得出的结果保持客观的怀疑与观察,并尽可能地在大样本量下进行分析。

(2)罗卡定律

  • 凡有接触,必留痕迹
    • 比如:视频的推荐算法,电商的猜你喜欢,都是从你的行为数据中找答案;可以说这种尽可能地获取数据,全方位地挖掘数据,已经成为各大互联网公司的标准做法

(3)幸存者偏差

  • 并不是简简单单的分析幸存者会导致结果有偏差
  • 统计样本的覆盖会从很大程度上直接影响分析的结果
    • 因此,各种分析的对象,能取全量尽量取全量;不能取全量则要选择最能代表总体特征的样本
    • 看别人的分析结果时,也要关注他是如何取样的

(4)辛普森悖论

  • 不要在不同的权重下,更不要跨量级比较数据
    在这里插入图片描述
    现象:单独看两组数据,无论是新客户还是老客户,A产品的好评率都比B产品要高,但是将所有结果汇总到一起,好评率更高的反而是B产品,与分组统计的结论完全相反。
    原因:两组数据在实验人数的分配上非常不合理,虽然两组数据的总人数相同,但它们在AB两个产品上的分配非常不均匀,都是只拿四分之一的人数在某一组进行测试,这就很大可能因为取样较少而得出不准确的结果
    结论:这种不考虑量级,直接比结果的分析方法,自然有可能得到完全相反的结论

(5)帕累托最优

  • 描述了一种资源分配的理想状态:仅通过调整分配方式,不增加资源就能提升生产效率

(6)总结

  • 大数定律:时刻对小样本量的分析结果保持客观的怀疑与观察,并尽可能地在大样本量下进行分析
  • 罗卡定律: 用户的一切行为都会留下数据,要尽可能地拿来分析,这样才能找到数据背后隐藏的价值
  • 幸存者偏差:分析时要提前检查取样偏差,所分析的样本要越能代表整体越好
  • 辛普森悖论:一定要确保数据在同一量级和权重下,再进行分析
  • 帕累托最优:就算不投入资源,也总有优化现状的方法

2. 拆解问题的一个原则:MECE法则

  • 中文意思是“相互独立,完全穷尽”,也就是对于一个重大的议题,能够做到不重叠、不遗漏的分类,而且能够借此有效把握问题的核心,并解决问题的方法。
  • 用MECE检验拆解结果,能保证将问题拆分为一个个清晰有效又没有遗漏的单元,可以很好地提升我们思考问题的全面度
    在这里插入图片描述

3. 拆解问题的四类方法

熟练掌握这4种方法,就能让你在各种业务场景下都能组合出一个不错的分析矩阵,快速找到问题的答案。

(1)时间流程法

  • AARRR模型:根据业务流程进行划分的漏斗模型

  • 根据时间顺序对问题进行拆解,其中最常见的当属漏斗分析,比如最经典的AARRR模型,就是将用户接触产品的过程划分为五个经典环节:获取、激活、留存、收益、传播。
    在这里插入图片描述

  • 不过AARRR也只是一种仅供参考的基础思路,在真实业务场景下,每个公司都会基于自己的业务情况进行变形,例如将收益环节进一步地细分为初次购买和复购,或者在收益环节后增加一个用户流失再召回的分支。
    在这里插入图片描述

  • 甚至完全根据自己的产品流程,重构整个用户链路。
    在这里插入图片描述
    实际使用过程中根据业务场景想怎么改就怎么改

  • PDCA模型:一种可以持续提升执行质量的执行框架

  • 偏重质量管理,强调做事情一定要先规划再执行,并且要定期检查过程中出现的问题,并予以解决。
    在这里插入图片描述

  • 精益创业模型:强调跟据想法快速构建产品,并基于数据反馈快速迭代创业流程

  • 这种流程的优点是前期投入小,可以快速尝试很多思路方向,最后只选择数据表现最好的进行规模化,某节就是这样在一众APP中试错孵化出了某音,而这种思路现在也被广泛应用到了各大互联网公司的产品团队
    在这里插入图片描述

在实际操作中,可以先划分出问题从产生到结束必经的几大阶段,然后在每个阶段内逐层向下拆解,直到拆出的部分能够精确地定位到问题产生的原因。

(2)模型框架法

  • 模型框架法常用的是SWOT和RFM,它们的共同特征都是:基于几个完全平行的分析维度对问题进行划分,当然也有只在一个维度对问题进行划分的,比如最简单的优劣势比较 、投入产出比分析、A/B测试等,它们都是仅从一个维度将事物分成几个独立的部分进行分析;而SWOT是从两个维度各自一分为二,得到四个区间;RFM则是三个维度,最后得到八个区间,可以说,只要你分析的维度是平行的,不互相干扰的,叠个四维框架出来都可以,只不过的常见的还是二维和三维
    在这里插入图片描述
  • 比如:假设我是一款音乐APP的数据分析师,会员续费是我们主要的收益来源,如果我们发现收益逐月下降,除了最经典的从用户流程上进行拆分,检查各环节的转化率之外,我们还可以选取多个维度跟是否续费进行交叉,例如使用时长、用户年龄、有无续费优惠、初次购买会员是否参加活动,对这个问题进行全方位的分析,只要一一基于数据进行对比,总能准确定位到影响用户续费的原因
    在这里插入图片描述

可以说分析框架在拆解复杂问题时真的非常好用,凡是遇到需要对比分析的上框架准没错。

(3)量化公式法

  • 只要涉及到指标计算,都可以用公式法进行拆解
  • 比如:在这里插入图片描述
  • 还能基于某一个转化率继续向下拆解,可以说只要指标公式成立,就能保证我们的拆解符合MECE原则。

(4)穷尽要素法

  • 它的精髓在于将整体分为不同的构成部分,相当于从时间之外的维度对整体进行划分,例如性别可以分为男、女、其它,年龄可以分为婴幼儿、少儿、青少年、青年、中年、老年和其它;而在实际的业务场景中常把用户分为各种类型,比如电商领域最经典的八大人群,这是天猫和贝恩在2019年中国快消品线上策略人群报告提出的人群划分概念,报告基于中国消费者的基础属性、消费认知、消费偏好和各行业的人群属性标签,将中国的消费人群划分为了新锐白领、资深中产、精致妈妈、小镇青年、Z世代、都市银发、小镇中老年和都市蓝领这八类,而这八类人群约占大多数快消平台用户数的八成,更是贡献了九成以上的销售额。在这里插入图片描述

穷尽要素法非常灵活,不受时间和特定维度的限制,并且只要你的拆解能穷尽问题的各个部分,往往能快速找到问题的答案;当然穷尽要素法因为拆解的方式不固定,往往需要有一定的业务经验和积累,不然很容易对着问题干瞪眼,看半天也不知道怎么拆,所以初学阶段,可以主要使用前三种拆解方式较为固定的方法,对业务的理解加深之后,再用穷尽要素法进行更加灵活全面的拆解。

4. 量化问题两步走

在搞定了各种分析框架之后,就要基于框架对问题进行量化了,简单来说,量化问题为数据只需两步:

(1)根据拆解的维度找到对应的数据指标

常见的数据指标主要有3类,属性、绝对值、转化率。

  • 属性:描述分析对象有哪些特征(以文本格式居多,例如:姓名、性别、年龄和注册时间)
    注意:年龄、身份证号、用户ID这类数字也算属性,本质上都是用于区分对象的特征
  • 绝对值:衡量一件事最后的结果(比如销售额、用户数、点击数等)
  • 转化率:衡量一个环节的完成度(比如:点击率、成交率)

以最常见的AARRR流程为例:
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
每个用户都有其姓名、ID、性别、年龄等属性特征,并且每一个环节都有其对应的绝对值大小,还能计算彼此之间的转化率。

(2)基于现有的数据指标进行发散的思考

在一一找到当前拆解维度对应的指标后,第二步就是就是基于现有的数据指标进行发散的思考了,首先要看到的是指标彼此之间还能不能进行计算。

  • 例如各种转换率,其实就是各环节绝对值相除
  • 还有各种占比,能够反映局部和整体之间的关系,例如女性用户占整体用户的比例
  • 当然也可以自定义一些计算关系,例如现在兴趣电商中非常重要的指标,GPM=1000*GMV/观看人数,相当于每1000人观看后的成交金额,用来衡量视频、直播等内容的卖货能力
  • 最后除了指标彼此之间的计算,还可以对指标继续进行拆解,例如刚才的AARRR中,激活率=软件安装人数注册率使用率*活跃率,这样就能让我们补充一些细分的指标,更加全面的量化问题

5. 分析框架和问题量化在业务场景中如何应用

日常业务中最常见的分析场景是:业务诊断和业务增长

  • 业务诊断:针对现在发生的问题找原因,对应是什么?和为什么?
  • 业务增长:需要给出系统量化的业务增长策略,对应怎么做?和做多少?

(1)业务诊断-指标异动分析

在这里插入图片描述

  • 如:8月份某音乐APP的会员收入477370元,相较于7月份下跌了9477370元,此前从未出现类似的情况,数据确认无误,需要你结合数据找出下跌的原因,以避免出现类似的情况,这种就是业务诊断中典型的指标异动分析
  • 回答这类问题,首先我们肯定要基于业务进行拆解,那要选择哪种拆解方法呢?答案是一起上!实际业务中灵活组合各种拆解方法可是常态。具体步骤如下:

在这里插入图片描述

  • 拆解
    • 一般来说会先用时间流程法,拆解出必要的业务环节,在这个例子中,最少要拆解出曝光、注册和付费这三个环节
    • 接着用模型框架法,对环节中不同的用户和业务动作进行区分,以现在的会员付费场景为例,新老会员在付费动机上是完全不同的,新会员更多的是第一次体验一下,而老会员往往是有需求,或者体验好才决定付费,并且,一般来说,新会员都是需要投放拉新才能获得,而老会员天然活跃在APP上,所以,后续的拆解和分析中,两者最好被区分出来
  • 量化
    • 在用框架区分完用户和业务动作后,一般会直接基于当前的拆解,寻找对应的数据指标,然后串联指标,量化为业务公式,对于新用户来说:会员收入=新用户曝光数X注册率x新会员付费率x会员价格;对于老用户来说:会员收入=上月会员数x老会员续费率x续费价格;如果新会员和续费的价格一致,还可以进一步组合公式:整体会员收入=(新用户曝光数X注册率x新会员付费率+上月会员数X老会员续费率)x会员价格
  • 取数&分析
    • 然后,只需要从数据库中一一取出公式所对应的数据进行可视化分析就好了,这里只用Excel的条件格式就可以发现8月份会员收入下降,主要是由新会员人数下降导致的

在这里插入图片描述

  • 进一步拆解
    • 接下来我们还能针对新会员人数进行进一步拆解,可以用穷尽要素法,直接拆解出用户所有的付费渠道,看它们最后的付款人数
    • 也可以继续用模型框架法,对用户的类型进行区分
    • 总之就是不断循环“拆解、量化、取数、分析”的整套流程,最终诊断出具体是哪个指标导致了问题的发生,在这之后就是询问负责这个指标的业务同事,或者和他一起探究指标异常的具体原因了
    • 业务诊断除了异动分析,还有与之类似的目标达成分析,具体的方法也是根据流程,向下拆解找出是谁没有达成业务目标,而无论是哪种业务诊断,思路和流程其实都与异动分析高度相似,都是一样的“拆解、量化、取数、分析”

(2)业务增长

在这里插入图片描述
到了业务增长场景,就要比业务诊断复杂得多了,如果说业务诊断是基于现有的业务模式优化业务,那么业务增长则是重新设计业务模式,找到真正的增长空间,这也让业务增长场景下的分析难度大大提升,需要积累一定的从业经验,建立起系统的认知后才能掌握;如果连业务日常出现的小问题都不知道为啥,当然更难以判断当前整个业务的增长瓶颈到底在哪。
在这里插入图片描述

接下来简单介绍下业务增长下的分析流程:

  • 首先要从外部收集数据,通过费米估算预测一个潜在的市场空间
  • 接下来还要通过爬虫或者研报推算出准确的竞品规模,市场空间减去竞品规模就能得到理论上我们一定能达到的增长目标
  • 然后就是根据这个增长目标,研究市面上有没有主流打法能够达到,如果没有就要根据我们自身的业务情况,从内部设计整个增长策略,而增长策略中最需要考虑的就是增长引擎,它是增长的发动机,由持续获得新用户的流量来源以及持续转化用户的产品这两部分构成,在设计这两部分的过程当中不仅考虑用户路径的每一个环节,还要对增长的成本进行精确的计算
  • 然后还要进行核心指标选取、业务动作梳理、指标体系搭建、数据实验设计、专项策略输出,最后梳理出一个量化可行的业务方案,并严格基于数据进行策略的实验和迭代,从而一步步的达到企业的增长目标

系列文章

数据分析必备原理思路(一)
数据分析必备原理思路(二)
数据分析必备原理思路(三)

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

毛媛媛

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值