R语言实战笔记--第十二章重抽样（置换检验）与自助法

本文链接：https://blog.csdn.net/gdyflxw/article/details/54141629

本文详细介绍了R语言中进行置换检验和自助法的实际操作，包括使用coin包进行置换检验，通过lmPerm包进行非正态理论检验，并讨论了自助法在获取置信区间和估计测量精度中的应用。置换检验适用于小样本和非正态分布的数据，而自助法则用于生成置信区间。文中还提到了boot包在自助法中的应用。

摘要由CSDN通过智能技术生成

R语言实战笔记–第十二章重抽样（置换检验）与自助法

标签（空格分隔）： R语言重抽样自助法置换检验

置换检验

　　双样本均值检验的时候，假设检验的方法就是，检查正态性、独立性、方差齐性，分别对应的参数非参数方法进行假设检验，但是，这些方法都要求样本数必须有多少多少，但是，由于试验时，各种条件的限制，导致样本量过小，此时以上方法几乎都会失真，置换检验就应运而生了。
　　Permutation test 置换检验是Fisher于20世纪30年代提出的一种基于大量计算（computationally intensive），利用样本数据的全（或随机）排列，进行统计推断的方法，因其对总体分布自由，应用较为广泛，特别适用于总体分布未知的小样本资料，以及某些难以用常规方法分析资料的假设检验问题。在具体使用上它和Bootstrap Methods类似，通过对样本进行顺序上的置换，重新计算统计检验量，构造经验分布，然后在此基础上求出P-value进行推断。
　　置换检验的操作方法：假设有两组待检数据，A组有m个数据，B组有n个数据，均值差为d0，现把所有数据放在一起进行随机抽取，抽出m个放入A组，剩下n个放入B组，计算A、B两组的均值差记为d1，再放在一起进行随机重抽m、n两组，得到均值差记为d2，重复这个步骤k次得到（d3……dk），于是d1……dk可以画出一张正态图，然后看d0落在什么方，若落在置信水平之外，即可以显著说明它们是有差异的。
　　R代码如下：

a<-c(24,43,58,67,61,44,67,49,59,52,62,50,42,43,65,26,33,41,19,54,42,20,17,60,37,42,55,28)
group<-factor(c(rep("A",12),rep("B",16)))
data<-data.frame(group,a)
find.mean<-function(x){
    mean(x[group=="A",2])-mean(x[group=="B",2]) 
} 
results<-replicate(999,find.mean(data.frame(group,sample(data[,2])))) 
p.value<-length(results[results>mean(data[group=="A",2])-mean(data[group=="B",2])])/1000
hist(results,breaks=20,prob=TRUE)
lines(density(results))

　　
From：https://www.plob.org/article/3176.html

coin包置换检验

coin包介绍

　　coin包中的置换检验有以下几种：

检验	coin函数
两样本和K样本置换检验	oneway_test(y ~ A)
含一个分层（区组）因子的两样本和K样本置换检验	oneway_test(y ~ A \| C)
Wilcoxon-Mann-Whitney秩和检验	wilcox_test(y ~ A)
Kruskal-Wallis检验	kruskal_test(y ~ A)
Person卡方检验	chisq_test(A ~ B)
Cochran-Mantel-Haenszel检验	cmh_test(A ~ B \| C)
线性关联检验	lbl_test(D ~ E)
Spearman检验	spearman_test(y ~ x)
Friedman检验	friedman_test(y ~ A \| C)
Wilcoxon符号秩检验	wilcoxsign_test(y1 ~ y2)

注：在上表中，y和x是数值变量，A和B是分类因子，C是类别型区组变量，D和E是有序因子，y1和y2是相匹配的值变量
表中所有的函数使用方法都一样：

functionName(formula,dataframe,distribution)，其中distribution指定经验分布在零假设条件下的形式，可能值有exact，asymptotic和approximate，若distribution = "exact"，那么在零假设条件下，分布的计算是精确的（即依据所有可能的排列组合）。当然，也可以根据它的渐进分布（distribution = "asymptotic"）或蒙特卡洛重抽样（distribution = "approxiamate(B = #)"）来做近似计算，其中#指所需重复的次数。distribution = "exact"当前仅可用于两样本问题。