五、对比分析法(A/B test)
在数据分析中,我们通过对比分析方法,来追踪业务是否有问题。例如,公众号日活跃率是4%,你说是高还是低? 这个日活跃率有问题吗?这时候,就需要用对比分析方法来追踪业务是不是有问题。正所谓,没有对比就没有好坏。
《经济学人》是美国的畅销经济学杂志,它做过一个订阅实验,给用户以下3个选项进行选择:
(1)只订阅电子版,59美元一年
(2)只订阅纸质版,125美元一年
(3)订阅纸质版+电子版,125美元一年。
第2个选项和第3个选项的价格一样, 但是第3个选项提供的服务更多。实验结果显示,只有16%的人选择了第1个选项,有84%的人选了第3个选项,也就是有更多的人愿意花更多的钱去订阅杂志。
而如果将第2个选项去掉,选择第3个选项的用户减少到了32%。
因此,第二个选项存在的意义不是让人选的,而是用来对比的。
如何使用对比分析方法?
从2个方面来考虑:(1)和谁比(2)如何比较
(1)和谁比:和自己比,和行业比。
例子:雷军在小米上市之前做了一个公开承诺:“ 小米的硬件综合净利润率永远不会超过5%。如有超过的部分,将超出部分全部返还给用户。”
我们用对比分析方法来分析下这句话背后的真实含义。
和自己比:首先,我们知道净利润=毛利润-其他成本。2015年,小米的毛利润是-0.3%,2016年,毛利润为3.4%。所以,和自己的历史业绩相比,小米硬件的毛利润不超过5%,净利润更不超过5%了。
和行业比:硬件的领头羊海尔公司在2017年的净利润是4.3%,也达不到5%,也就是说,整个行业的利润也没有超过5%的。所以雷军的这个承诺是根据数据分析得出来的结论,而且会给购买用户留下小米“性价比高”的形象。
(2)如何比较:
数据整体的大小,平均值,中位数,或者某个业务指标
数据整体的波动,标准差➗平均值=变异系数,通过变异系数来看数据波动。
标准差怎么算?
“标准差”(standard deviation)也称“标准偏差”,它可以通过计算方差的算术平方根来求得。标准差表征了各数据偏离平均值的距离,它反映出一个数据集的离散程度。
计算标准差的步骤通常有四步:
(1)计算平均值
(2)计算方差
(3)计算平均方差
(4)计算标准差
例如,对于一个有六个数的数集2,3,4,5,6,8,其标准差可通过以下步骤计算:
计算平均值:
(2 + 3 + 4 + 5+ 6 + 8)/6 = 30 /6 = 5
计算方差:
(2 – 5)^2 = (-3)^2= 9
(3 – 5)^2 = (-2)^2= 4
(4 – 5)^2 = (-1)^2= 0
(5 – 5)^2 = 0^2= 0
(6 – 5)^2 = 1^2= 1
(8 – 5)^2 = 3^2= 9
计算平均方差:
(9 + 4 + 0 + 0+ 1 + 9)/6 = 24/6 = 4
计算标准差:
√4 = 2
趋势变化,从时间的维度看数据随着时间的变化。常用的方法是时间折线图,环比和同比。 时间折线图:以时间为横坐标,数据为纵坐标,可通过过去的变化预测未来的动向
环比是和上一个时间段对比,用于观察短期的数据集。例如本周和上周对比,本月和上月对比( 某数据在2020年12月比2020年11月下降10%)。
同比是与去年同一个时间段进行对比,用于观察长期的数据集。例如某数据在2020年12月比2019年12月下降10% 。
如上图所示,第一列是比较维度,中间几列是比较对象,最后一列是比较结论。
注意:进行比较时,注意比较对象的规模要一致。
如图所示,随着时间的变化,不同地区的日均销售额也不同。然而,有没有考虑过这种情况?A、B、C三个地区店铺数不同,比如,一线城市的地区开的店铺数比三线城市店铺数多,日均销售额自然就高了。
因此,就像前面说的,进行比较时,比较对象的规模要一致,否则没有可比性。
那么怎么解决这个问题呢?地区日均销售额➗店铺数目,这样就可以算出各个地区每个店铺的日均销售额。算完之后,如下图所示
我们发现B地区的销售额并不差。
A/B test同样是对比分析方法。
A/B测试就是为一个目标制定2个方案,这2个方案只有某个方面不同,其他的都一致,一个设置为对照组,一个设置为实验组。最后将结果进行数据分析,得出那个方案最好。