通过数据可以对自身的企业情况有着准确和科学的把握,避免老板拍脑袋;数据可以实现对市场环境快速的反应和决策;数据可以区分客户个性化需求,提高服务价值等等。
这些是我们通常说的数据分析价值和意义
但数据分析会骗人么?
答案是:会
数据分析是一个整体与局部,主观与客观共同作用的过程,这也就意味着,只要其中有任何一个环节出了差错,就有可能导致数据分析骗人。
数据分析骗人套路可以简单归纳如下:
从统计数据入手
- 随机样本不足够有代表性,比如:去年美国总统大选前的民与最后的结果,可以参考FiveThirtyEight上的一篇文章《The Polls Missed Trump. We Asked Pollsters Why》
- 平均概念混淆,众数、均值、中位数这三者都属于平均数的类别,在不告知平均数类别以及样本分布的前提下去谈平均数简直就是大忽悠。比如:工资“被”平均
- 利用统计角度不充分的样本,几乎能够产生任何需要的结果,吹嘘具有显著性差异。
从数据可视入手
俗话说一图值千言,数据可视化在数据分析中占有举足轻重的地位,而数据可视化也是“骗人”的重灾区。
- 坐标轴小把戏,突出局部,忽略整体
有时候是有意的(比如说需要强调自己的某一个看法),有时候是无意的(比如说 Excel 会自动调整)。
一百多年见,温度升高不到两度,却给人在视觉上造成了很大的冲击。
- 多维图滥用
“解(hu)读(you)”奥巴马在政期间的美国高中毕业率
更多案例请参考:《The most misleading charts of 2015》
从解读数据入手
- 利用不完全的资料混淆视听,举个《数据分析会说》一书中提到的例子:美国与西班牙交战期间,海军的死亡率是千分之九,而同期纽约居民的死亡率是千分之16,后来海军征兵人员就用这些数据来证明参军更安全。然而,这两组对象是不可比的。海军主要由体格健壮的年轻人组成,而城市居民包括了婴儿、老人、病人,不论这些群体在哪里,死亡都会相对较高。数据无法证明符合参军标准的人在海军比在其他地方有更高的存活机会。
- 误解扭曲相关关系为因果关系:两个事物之间的关联关系并不能用于说明其中一个将会引起另一个的变化。更大的可能性是,两个事物并不互为因果,而是同为第三个事物的产物。比如:吸烟致就是一个具有争议的话题。到底吸烟与癌症是统计学中的关联,还是有大量的证据可以表明因果。不同的利益相关者会有不同的答案。
综上,当你遇到以下数据情形,就需要警惕数据的真实性了:
- 数据报告从来不注明数据出处,数据时间,数据取样规则,数据取得方法等。现在市场上很多报告都属于这一类。
- 数据报告在做市场调研中说明全样本共1000,其中北京可能只有100,基于这100个样本出来的结论显然不可信。事实上很多市场研究报告就是这样出来的。
- 数据报告中存在明显的观点,对于事物的分析只讲其优势或劣势,不全面也不客观。现在很多互联网分析师就是属于这类,大家注意辨别。
小结
引用《统计与真理》一书扉页上的话做结尾:“在终极的分析中,一切历史都是知识。在抽象的意义下,一切科学都是数学。在理性的基础上,所有的判断都是统计学”。
数据分析当然会骗人,合理的数据分析将会让我们一步步接近事实的真相,用数据去讲故事,而不是编故事。