作者:姚某某
博客:https://zhuanlan.zhihu.com/mydata
往期回顾:
本节主要总结「数据分析」的「Resampling」重抽样思想,并通过 R 语言实现。
有一种东西叫作「传统」,它在很多时候很有用,但会让你思维固化,在新的环境下让你出错。
在总结回归分析和方差分析的时候 ④R语言之数据分析「初章」,我总是会在模型的建立之前提到「统计假设」,在模型建立之后进行「假设检验」,原因想必大家都能理解,就是因为这些「统计假设」是我们模型建立思想的基础,是支撑我们模型正确性的「必要条件」。但是,不可否认的是,这些「必要条件」最终会成为我们「数据分析」的局限,让我们对「不满足条件的数据集」束手无策。
本节,我们就来解决这个「必要条件」中的其中一条假设,从特例到普遍。
统计假设中有一条,叫做「假定观测数据抽样自正态分布或者是是其他性质较好的分布」,那么当数据集抽样自「未知分布、混合分布」、样本容量过小或存在离群点时,传统的统计方法所得到的模型可能就会不那么准确,原因之前已经讲过,这个时候「Resampling」 的思想就出现了。它抛弃了分布的理论,而是完全基于同一个样本,在这个样本中多次重复抽样,然后将所有抽样的结果作为总体,将原样本放到其中去检验,判定其显著性。因为需要多次重复抽样,所有它被称为重抽样「Resampling」。
1. Resampling 的分类
1.1. 置换检验( permutation test )
这个方法是传统统计方法的创建者 R. A. Fisher 建立的,但是由于这个方法的计算量过大、且计算机技术也未成熟,他最后放弃了这个方法。但是,数十年后的今天,计算机技术的高速发展,这个方法终于能够实现并发挥其价值。
为了更清楚的说明置换检验的思想,我举一个「两总体均值之差」的推断问题:
现在有两套学习方案 A 和 B,在 10 个受试者中随机抽取 5 个按照方案 A 学习,另外 5 个按照方案 B 学习,在学习完毕后对 10 个受试者进行测试,得到分数如下: 方案 A 方案 B 91 89 88 78 76 93 79 81 82 77 原假设H_{0} :两种方案的总体均值相等 ;备择假设H_{a}:两种方案的总体均值不等
<