假设检验_假设检验方法大集合

本文转自假设检验方法大集合_克里克学院

在此感谢原作者的付出。

前言
在上一节“聊聊绕不开的假设检验”中,小编重点给大家解析了假设检验的基本思想和套路:

>>聊聊绕不开的假设检验

了解其思想流程之后,小编来给大家重点介绍一下相关的假设检验方法。,现整理汇总27种假设检验的方法(全部都是用R语言实现),供大家欣查找各种资料赏学习,以求达到“抛砖引玉”的效果。若其中叙述有不妥之处,还望大家批评指正。临近年末,备此薄礼一份,请各路大侠笑纳,也在此提前祝大家春节快乐,阖家幸福!

>>R语言与爪哇国癌症统计分析
>>聊聊数据的标准化
当表达量矩阵数据遇到R
聊聊统计学三大相关性系数
聊聊R语言

这里的27种方法,也是经过小编浅薄的统计学知识过滤一遍筛选出来的(据不完全估计,这么些年发展出的所有的假设检验方法应该有不下60种),其中含有我们分析数据时经常使用的几个“明星方法”,也包含不少比较少见但也实用的方法,希望能给大家带来一些帮助。此外,就这列出来的方法,小编也进行了一个“粗”分类(分布的假设检验,方差齐性的假设检验,参数检验,非参数检验),主要目的是希望帮助大家在整体上先有一个较为清楚的辨识。

Tips
明确一下粗分类中的几个概念:

分布的假设检验,就是检验数据呈现哪种分布,也可以理解为你的数据是由哪个分布的总体抽样得来的;

方差齐性的假设检验,就是看你的数据之间方差是不是相等;

参数检验,就是在统计推断中,要基于来自总体分布(一般是提前假定,比如正态分布)对参数做出估计或者进行某种形式的假设检验。所以,我们使用该类方法时,要对我们这个“假定”的分布,提前做下验证。

非参数检验,就是不假定总体分布的具体形式,尽量从数据(或者样本)本身来获得所需要的信息的检验方法。

所以小编展示这些方法的基本逻辑就是:

b0b08e17ae2fd63efbf81ff578ca69bb.png

也就是说,你要是一开始就用非参数检验的方法,一般可以直接使用,不用对数据做提前的验证,若是选择使用参数检验的方法,需要对你的数据进行前提条件的验证,一般是指验证数据的正态性和方差的齐性(也就是看方差是不是相等),对于不满足前提条件的数据,严格来讲你是不能用参数检验的方法的。

这里有可能很多童鞋会问了,既然参数检验的方法那么麻烦,那么我们都使用非参数检验的方法不就行了?非也!参数检验的方法之所以还存在,其中一个原因就是,对于满足前提条件的数据,使用参数检验方法的效能要比使用非参数检验方法的效能高。在其他的资料里你很可能也会看到类似的话语,那么这里的“效能”到底是啥意思呢?小编的理解是“检验真实情况的能力”,具体由计算的p值来体现,

现举例如下:

比如下面是某蛋白质在控制组和实验组定量的数据,在R中读取数据:

91602649bea17630762d2f320a1b5180.png

若我们直接就用非参数检验的方法,这里假设使用wilcox.test函数:

022eec08fbb728850c018f535bcbc00e.png

可得p值等于0.007937。
若我们使用参数检验的方法,比如使用t.test函数,先对其正态性和方差齐性进行一下检验:

4470f57aa64dd378f202c884ae5f2c1d.png

p值都大于0.05,说明数据都是正态的。

f33a4aa5c83eb82681263a05ec15e08c.png

p值等于0.3142,大于0.05,说明两组数据是等方差的。所以使用t.test函数如下:

886c7d139d07fd26c3c45bf3d0fa26ec.png


发现没有,此时得到的p值等于0.00003498,远小于由非参数检验得到的0.007937,说明在前提条件都满足时,参数检验的方法判断更加可靠,也就是“效能”更大。

方法展列

014a0a3770cf6ac191f11c954d2f1969.png

411741e0a6239988b982708e7e431561.png

9ad7d15f3963b6dc9b600998d9b8eab0.png

0f7bc8f0b92b0573bccdb38f49f3e796.png

表格说明:在表中,每个假设检验的方法都对应的列出了在R语言中的函数以及其所属的包,其中“stats”包是基础包,不用额外安装,其他包不是基础包,若你以前没有安装过,需要先进行安装,然后才能使用。在“简介”一列中,简要叙述了该方法是用来干什么的,后面会对每一个方法做比较详细的介绍。粗分类的情况上面已有描述,这里就不再赘述。

方法使用说明
在前面的推文里,小编提到过,在R语言里,使用“?”或者“help”命令可以对每一个函数进行查询,看其详细的介绍。现在,小编就开始把上面列表的方法从上到下一一做下使用介绍(PS:虽然有些方法在上面以及前面所写的推文中有介绍,但为了整体的一致性以及大家查看的方便性,请恕小编在这里再赘述一遍),介绍的内容主要包含3个方面:该方法的用途,所使用的R函数,举个实例进行解释说明。
1 Shapiro-正态性检验
用途:检验数据是否呈正态分布,即你的样本数据是否来自于正态总体。
R函数:

52c6761f6d4ab7e26460599678c463a5.png

其中x为你的样本数据。

举例使用:
某蛋白质在控制组和实验组定量的数据(PS:没有特别说明,小编都以此数据为示例数据),在R中读取数据:

91602649bea17630762d2f320a1b5180.png

p值都大于0.05,说明数据都是正态的。

2 E-statistic(engery)多元正态性检验
用途:检验数据是否服从多元正态分布,这里的“多元”,可简单理解为多个样本数据。要做多元正态性检验的一个原因就是,不少方法中都需要数据满足多元正态分布,要不然严格讲你是不能使用那些方法的或者使用了但会严重影响方法的效果,比如多元方差分析,线性判别分析等。

R函数:

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值