《统计数据的真相》
通过扩大抽样实验的规模,数据的可信度会大大提高。
增长率和增长率的增长率
假如一个公司销售额分别为:
100、101、102.5。
从上面的数据可得出结论:销售额先增长了1%,然后又增长了1.49%(1.5/101)。客观的说,这个增长率数字非常小,也可以说,后一个增长率几乎贴在前一个数据之上,原则上我们不能用“具有活力”这个词来描述这个公司的销售情况。
相反,如果我们不从增长率这个初始数据也出发,而改用增长率的增长率来表示,那么,情况就会发生根本性的变化。如果销售额在第1年增长1%,第2年比第1年又增长了1.49%,那么第2年的销售额比第1年销售额增长了49%!
短期条件下,趋势可以作为准绳。 (奶牛产奶预测例子)
抽样检查存在样本畸形的情况(二战后美国在德国进行体重调查,秤放在广场,只有吃饱的人才能出门,而吃不饱的不会出门。实际上站在秤上的标准,已然过滤掉大部分食不果腹的人群。)
书中还提到了幸存者偏差
特别当心数字图形在较高维度(二维,三维)中的表现,因为数字图形与维度经常不匹配。
调查问题时提问方式可能会带来不同的反馈,关于抽烟和祈祷的笑话。(如果希望得到一个明智的回答,那么你必须理智的提问-歌德)
《用图表说话》
第二步,确定相对关系
图表相对关系的五种类型:
1.成分相对关系(占总体百分比)
在一个成分相对关系里,我们的兴趣主要在于每一个部分所占的百分比。
如:在5月份,A产品预计将占到公司总销售额的最大份额。
成分相对关系最好使用饼图,因为饼图能给你一种整体的形象。
为了使饼图尽量发挥作用,使用中最好不要多于6中成分,如果超过6种,那么就选择6种最重要的,并将未选中的列为“其他范畴”,人眼是比较习惯按照顺时针方向进行观察,所以应将最重要的部分放在紧靠12点钟的位置,并用颜色强调,如果没有重要,就按所占比重大小排。
(书里也有用别的图的)我们最初使用图的目的是阐明关系的过程比使用列表更加快捷清晰,当图的形式比内容更加突出,就是说当图表的设计干预了受众对内容的掌握时,就会影响他们做出正确的判断。
如果你的目的是想表达精确的对比关系,请克制你强烈的创造欲,并使用传统的饼图。
2.项目相对关系(项排名)
在项目相对关系里,我们想要比较事物的排列方法。(他们差不多,还是一个比另一个更多或更少?) 如:在5月份,A产品销售额相当于B、C销售额之和。
有时,你可能想用柱形图来代替条形图,用垂直的条形图来代替水平的以表明一个项的相对关系,其实没什么错,但是在90%的情况中,有两个原因你不应该使用柱形图。
第一,通过使用条形图可以减少把项的对比关系误解为时间序列相对关系的可能。
第二,排版上的问题,条形图项名称上可以横排,柱状图过长的项名称就要横排了
3.时间序列相对关系(如何随着时间变化)
我们对它们怎么随着时间变化感兴趣:它们每星期,每月,每季度和每年的变化趋势是增长的、减少的、上下波动或者是基本保持不变。
如:投资回报在过去的5年里急剧下降。
一般使用,柱状图或折线图,取决于哪个使用方便,如果只有少数项,比如说7-8个,那就是有柱状图,反之,你要在图中展示20多年来每个季度变化趋势,最好还是用折线图。
也可以考虑一下数据本质。柱状图强调的是数量的级别,更适合表现在一小段时间里发生的事件。
折线图强调的是角度的运动及图像的变换,因此展示数据的发展趋势,最好使用它。
4.频率分布相对关系(项的分布情况)
各数值范围内个包含了多少个项目,比如说有多少人工资在8000到12000之间,等等。
典型信息如:在5月,大多数地区的销售额在1000,到2000美元之间。
这一类相对关系的有关术语有:从X到Y、集中、频率与分布等。
5.相关性相对关系(变量间关系)
相关性相对关系显示的是两个变量的关系是否符合你索要证明的模式,例如说,你可能期望利润和销售额同比增长;
当你的信息包括与。。。有关,随。。。而增长,随。。。而下降,随。。。而改变,随。。。。而不同等,或者反过来说,比如不随。。。而增长等,那么可以肯定是一个相关性相对关系。
如:订单的大小与客户收入成正比(增长)