数据分析思维系列
文章目录
世界上缺的不是算法和技术,而是能用算法、技术能解决实际问题的人
1.平均值
平均值概念需扩展,暂时不做赘述
平均值容易受到极端值的影响,也就是说整体平均值是在数据呈现均匀分布或者正态分布的情况下才会有意义,如果忽略整个数据的分布情况,只提平均值其实是没有意义的
分组结论和整体平均值不是一回事,整体平均值不能代表各分组情 况,分组结论和整体平均值结论可能会大相径庭。
例子:
两分球和三分球投中率都比较高的这个球员 B,整体的命中率反而下降了
辛普森悖论:简单来讲就是在分组比较中都占优势的一方,有的时候在总评中反而是失势的一方。
所以,我再来总结下,看到一个平均值的时候,你一定要留个心眼,看看它的数据构成情 况,而不是简单地用平均值去代表所有的整体。生活是具体的,如果你想看到更为准确的 数据,你应该分组拆开来看。因为辛普森悖论告诉我们,有的时候,在分组比较中占优势 的一方,在总评中反而可能是失势的一方。但你要注