观察数据时易出错的点

最新推荐文章于 2023-02-21 22:48:43 发布

Distrlili

最新推荐文章于 2023-02-21 22:48:43 发布

阅读量440

点赞数

分类专栏：分析案例

本文链接：https://blog.csdn.net/G090909/article/details/104452715

版权

分析案例专栏收录该内容

2 篇文章 0 订阅

订阅专栏

观察数据，推断结论时，常见的错误：

错误1：不谨慎的归因，造成相关性的误解。

广告投入和流失率之间的相关性属于相关，不是因果关系。他们的共同的原因是“客户认可广告效果”，因为客户认可，所以投入广告费用比较高，因为客户认可广告效果，所以流失率比较低。

错误2：比较对象不当，造成：缺失或不匹配的比较。

合理比较对象的选择：

自身历史
与历史同期比较，例如去年或上个季度。如：由于今年营销工作的落实，产品销量同比增长10%。
同行竞品
如：与市场领先者X和主要竞争者Y比，我们的产品体验评测更优，60%的受访者反馈最喜欢我们的产品，第三方统计的市场占有率也从40%提升到50%。
合理预期
与之前对产品和市场发展的预期比。如：由于产品共功A的研发上线，我们收入比预期增加了10%。
同质对照组
例如 A/B Test评估

错误3：观测维度有误，造成：精心挑选的数据维度。

例1：

在这里插入图片描述

问题：哪家航空公司的运营效率最高？
第一反应，【西部航空】公司的运营效率最高。
本例中，飞机航班的延误率和航空公司的运营效率、机场的运营效率这两个因素均有关。所以，需要排除不同城市机场的运营效率对统计结果的影响。具体做法：就是拆分到不同的城市后，再比较两个航空公司的延误率，而不能混合在一起。
实际上，阿拉斯加航空的运营效率较高，延误率低，只是因为西南航空的大部分航班处于一个机场运营效率极高的城市（凤凰城）。
总结：对于一个结论数字Y，通常有很多因素X1，X2，…Xn与Y相关，如果想得到X1与Y的关系，那么需要把其他与Y相关的因素X2,…,Xn从数据中排除。

例2：一所艺术学校，男生校服只有裤子款式（100%选裤子），而女生校服有裙子和裤子两种款式，经统计得知75%的女生选裙子，25%选裤子。今天进入校园，远远看到一个穿裤子的同学，他是男生的概率高？还是女生的概率高？

可见是女生的概率要比是男生的概率高1倍多。

错误4：只信亲身经历，造成：基于个案的认知。

下论断要从统计整体来看，揪住一些个案没有太多意义的。但人是一种感性的动物，我们往往会对身边发生的、亲眼看到的个案给予更多的重视，而忽略了整体数据。比如，产品新功能推出后，运营不同客户的同事，一个说新功能好，一个说新功能不好，因为他们只是从客户那得到反馈，谁也没看到整体数据。

错误5：数据信息不足，造成：过分脑补的推理。

比如一个可以解释产品流量波动的法宝:“天气”，比如在冬日，产品流量出现下跌，给出原因，因为网民手冷而不愿上网，提前上床睡觉，所以流量下跌。若在冬日，产品流量上涨，原因是天气太冷，网民不愿出门，只好在家窝在床上，所以流量上涨。
天气可能只是原因的一部分，要站稳脚跟，还需要细致的数据支撑，比如：网民平均睡觉时间、出门和在家的比例等等，不能只根据一个总体流量数据做出想象。

再比如，针对电商促销活动的数据分析，数据显示不少用户延迟了很多天后才接受优惠返卷，如果之间下结论，1、用户非常有钱，不在意优惠卷；2、用户从来不查看账户信息，所以没注意到优惠。这些推测往往使人怀疑，如果是1的结论，需要查看他的历史购物记录，消费商品是否都属于较贵重的，是否在一品牌和品质，是否关注过或购买过折扣商品。

错误6：心中含有成见，造成：先入为主的偏见。

勃朗宁说过，”你脑子里想的是什么，你就会去寻找什么，你将会得到你期盼的结果“

Distrlili

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
观察数据时易出错的点

观察数据，推断结论时，常见的错误：错误1：不谨慎的归因，造成相关性的误解。广告投入和流失率之间的相关性属于相关，不是因果关系。他们的共同的原因是“客户认可广告效果”，因为客户认可，所以投入广告费用比较高，因为客户认可广告效果，所以流失率比较低。错误2：比较对象不当，造成：缺失或不匹配的比较。合理比较对象的选择：自身历史与历史同期比较，例如去年或上个季度。如：由于今年营销...
复制链接

扫一扫

专栏目录