观察数据时易出错的点

观察数据,推断结论时,常见的错误:

错误1:不谨慎的归因,造成相关性的误解。

广告投入和流失率之间的相关性属于相关,不是因果关系。他们的共同的原因是“客户认可广告效果”,因为客户认可,所以投入广告费用比较高,因为客户认可广告效果,所以流失率比较低。

错误2:比较对象不当,造成:缺失或不匹配的比较。

合理比较对象的选择:

  • 自身历史
    与历史同期比较,例如去年或上个季度。如:由于今年营销工作的落实,产品销量同比增长10%。

  • 同行竞品
    如:与市场领先者X和主要竞争者Y比,我们的产品体验评测更优,60%的受访者反馈最喜欢我们的产品,第三方统计的市场占有率也从40%提升到50%。

  • 合理预期
    与之前对产品和市场发展的预期比。如:由于产品共功A的研发上线,我们收入比预期增加了10%。

  • 同质对照组
    例如 A/B Test评估

错误3:观测维度有误,造成:精心挑选的数据维度。

例1:

在这里插入图片描述

问题:哪家航空公司的运营效率最高?
第一反应, 【西部航空】公司的运营效率最高。
本例中,飞机航班的延误率和航空公司的运营效率、机场的运营效率这两个因素均有关。所以,需要排除不同城市机场的运营效率对统计结果的影响。具体做法:就是拆分到不同的城市后,再比较两个航空公司的延误率,而不能混合在一起。
实际上,阿拉斯加航空的运营效率较高,延误率低,只是因为西南航空的大部分航班处于一个机场运营效率极高的城市(凤凰城)。
总结:对于一个结论数字Y,通常有很多因素X1,X2,…Xn与Y相关,如果想得到X1与Y的关系,那么需要把其他与Y相关的因素X2,…,Xn从数据中排除。

例2:一所艺术学校,男生校服只有裤子款式(100%选裤子),而女生校服有裙子和裤子两种款式,经统计得知75%的女生选裙子,25%选裤子。今天进入校园,远远看到一个穿裤子的同学,他是男生的概率高?还是女生的概率高?

第一反应,该同学可能是男生。
单纯从条件概率 P(裤子|男生) = 100%,P(裤子|女生) = 25%判断,该同学是男生。但是我们需要知道的是P(性别|裤子)?
那么根据贝叶斯公式,P(性别|裤子)=p(性别) ✖ P(裤子|性别)/P(裤子),这里只需要比较P(男|裤子) ?P(女|裤子),P(裤子)均相同,暂不需要。
假设已知,女生有900人,男生有100人,
是男生的概率近似:P(男|裤子)=10% ✖ 100% = 0.1
是女生的概率近似:P(女|裤子)=90% ✖ 25% = 0.225

可见是女生的概率要比是男生的概率高1倍多。

错误4:只信亲身经历,造成:基于个案的认知。

下论断要从统计整体来看,揪住一些个案没有太多意义的。但人是一种感性的动物,我们往往会对身边发生的、亲眼看到的个案给予更多的重视,而忽略了整体数据。比如,产品新功能推出后,运营不同客户的同事,一个说新功能好,一个说新功能不好,因为他们只是从客户那得到反馈,谁也没看到整体数据。

错误5:数据信息不足,造成:过分脑补的推理。

比如一个可以解释产品流量波动的法宝:“天气”,比如在冬日,产品流量出现下跌,给出原因,因为网民手冷而不愿上网,提前上床睡觉,所以流量下跌。若在冬日,产品流量上涨,原因是天气太冷,网民不愿出门,只好在家窝在床上,所以流量上涨。
天气可能只是原因的一部分,要站稳脚跟,还需要细致的数据支撑,比如:网民平均睡觉时间、出门和在家的比例等等,不能只根据一个总体流量数据做出想象。

再比如,针对电商促销活动的数据分析,数据显示不少用户延迟了很多天后才接受优惠返卷,如果之间下结论,1、用户非常有钱,不在意优惠卷;2、用户从来不查看账户信息,所以没注意到优惠。这些推测往往使人怀疑,如果是1的结论,需要查看他的历史购物记录,消费商品是否都属于较贵重的,是否在一品牌和品质,是否关注过或购买过折扣商品。

错误6:心中含有成见,造成:先入为主的偏见。

勃朗宁说过,”你脑子里想的是什么,你就会去寻找什么,你将会得到你期盼的结果“

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值