各种统计检验及r语言实现

最新推荐文章于 2022-10-29 09:14:57 发布

awk_bioinfo

最新推荐文章于 2022-10-29 09:14:57 发布

阅读量6.9k

点赞数 10

分类专栏：统计

本文链接：https://blog.csdn.net/qq_36608036/article/details/100394010

版权

统计专栏收录该内容

15 篇文章

订阅专栏

1.单正态总体的检验

方差已知，检验均值：Z检验

z.test():BSDA包，调用格式：

z.test(x, y = NULL, alternative = “two.sided”, mu = 0, sigma.x = NULL, sigma.y = NULL, conf.level = 0.95)

x，y为样本数据，单样本时忽略y；alternative选择检验类型；mu为检验的均值；sigma.x，sigma.y为标准差；conf.level为置信水平

方差未知，检验均值：t检验

t.test():调用格式：

t.test(x, y = NULL, alternative=c(“two sided”,“less”,“greater”), mu = 0,paired = TRUE, var.equal = FALSE, conf.level = 0.95,…)
x，y为样本数据，单样本时忽略y；alternative选择检验类型；mu为检验的均值；paired设置是否为成对检验；var.equal设置双样本时方差是否相等；sigma.x，sigma.y为标准差；conf.level为置信水平

均值已知/未知，检验方差：卡方检验

2.双正态总体检验

方差已知，比较两总体均值：Z检验

z.test():BSDA包

z.test(x, y = NULL, alternative = “two.sided”, mu = 0, sigma.x = NULL, sigma.y = NULL, conf.level = 0.95)
方差未知，且两方差相等/不等，比较均值：t检验

t.test():

t.test(x, y = NULL, alternative=c(“two sided”,“less”,“greater”), mu = 0,paired = TRUE, var.equal = FALSE, conf.level = 0.95,…)
成对数据，检验区别是否明显：t检验

t.test():

t.test(x, y = NULL, alternative=c(“two sided”,“less”,“greater”), mu = 0,paired = TRUE, var.equal = FALSE, conf.level = 0.95,…)
注意参数paired要为TRUE

两总体方差比较：F检验

var.test():

var.test(x, y, ratio = 1, alternative = c(“two.sided”,“less”,“greater”), conf.level = 0.95,…)
x,y为样本数据；ratio为原假设的方差比值，进行两样本比较时可以使用默认值1；alternative设置检验类型为双尾或是单尾；conf.level为置信水平

3.威尔科克森符号秩检验（Wilcoxon Signed Rank Test）
威尔科克森符号秩检验亦称威尔科克伦代符号的等级检验，是由威尔科克森（F·Wilcoxon）于1945年提出的。该方法是在成对观测数据的符号检验基础上发展起来的，比传统的单独用正负号的检验更加有效。

在Wilcoxon符号秩检验中，它把观测值和零假设的中心位置之差的绝对值的秩分别按照不同的符号相加作为其检验统计量。它适用于T检验中的成对比较，但并不要求成对数据之差di服从正态分布，只要求对称分布即可。检验成对观测数据之差是否来自均值为0的总体（产生数据的总体是否具有相同的均值）。

符号检验利用了观测值和零假设的中心位置之差的符号进行检验，但是它并没有利用这些差的大小（体现于差的绝对值大小）所包含的信息。因此，在符号检验中，每个观测值点相应的正号或负号仅仅代表了该点在中心位置的哪一边，而并没有表明该点距离中心的远近。如果把各观测值距离中心远近的信息考虑进去，自然比仅仅利用符号要更有效。这也是引进Wilcoxon符号秩检验的宗旨。

R语言实现
wilcox.test(x,…)

4.比率检验:

精确检验：二项分布检验

binom.test():

binom.test(x, n, p = 0.5, alternative = c(“two.sided”,“less”,“greater”),conf.level= 0.95)
x为具有特征样本数，n为样本总数，p为检验的比率

近似检验（样本量较大）：正态检验

prop.test():

prop.test(x, n, p = NULL, alternative = c(“two.sided”,“less”,“greater”),conf.level = 0.95,correct = TRUE)
x为具有特征的样本数；n为样本总数；p设置假设检验的原假设比率值；alternative设置检验方式；conf.level为置信水平；correct设置是否使用Yates连续修正，默认为TRUE。

5.非参数检验

总体分布的卡方检验:

chisq.test():

chisq.test(x, y = NULL, correct = TRUE, p = rep(1/length(x), length(x)),rescale.p = FALSE, simulate.p.value = FALSE, B = 2000)
x是样本数据的向量或矩阵；y是与x长度相同的向量，当x时矩阵时忽略y；correct设置计算检验统计量时是否进行连续修正，默认为TRUE；p为原假设落在区间内的理论概率，默认为均匀分布，实际应用时需要自己构造分布函数后计算概率分布；rescale设置为TRUE时，概率之和不等于1时将报错们重新计算p，设置为FALSE时不作此要求；simulate.p.value设置为TRUE时采用仿真方法计算p值

KS检验：

ks.test(x, y, …,alternative=c(“two.sided”,“less”,“greater”），exact = NULL)
x为数据向量；y可以为另一个数据向量，也可以是字符串作为分布名称指定一个分布（如pexp为指数分布，pnorm为正态分布），也可以是实际的累计分布函数，也可以是ecdf函数对象；“…”给出y分布指定的参数，alternative指定检验类型；exact指定P值是否应该被计算

双样本时，检验x与y是否来自同一分布。

KS检验对数据的利用更完整，更稳健。

卡方检验主要用于分类数据，KS检验主要用于有计量单位的连续和定量数据。