统计学中几种简单的检验方式

最新推荐文章于 2024-05-23 20:36:26 发布

cuitzjd

最新推荐文章于 2024-05-23 20:36:26 发布

阅读量5.5w

点赞数 20

分类专栏：统计学文章标签：统计学

本文链接：https://blog.csdn.net/cuitzjd/article/details/80755310

版权

统计学专栏收录该内容

1 篇文章 0 订阅

订阅专栏

 
 1、零假设 

  首先假定零假设成立，然后求出某统计量达到如此极端的概率是多少 

  定义零假设，如果得到的值大于表上的值，则出现零假设的概率很小，则拒绝零假设 

 
 2、假设检验 

2.1、T检验

  t检验主要用于样本含量较小（例如n<30）， 
 总体标准差σ未知的正态分布。 

  t检验分为 
 单总体检验和 
 双总体检验。 

 
 (1)单总体检验 

  是检验一个样本的平均数与一个已知的总体平均数的差异是否显著， 
 当总体分布是正态分布，如总体标准差未知且样本容量小于30，那么样本平均数与总体平均数的离差统计量呈t分布。 

  t统计量公式为： 

$$t = \frac{\overline{x}-μ}{S/\sqrt{n}}\sim t(n-1)$$

  由于t统计量服从自由度为n-1的t分布，在算出结果后可以通过查表得到“P值”， 

  这个结果表明，在整体均值为μ的情况下，样本均值X小于μ的概率不足“P值”，则能拒绝原假设。 

 
 (2)双总体样本检验，包括独立样本t检验和配对样本t检验 

  独立样本t检验： 

  检验两个独立样本所代表的总体均值差异是否显著。 

  适用条件： 

  1.两样本均来自于正态总体 

  2.两样本相互独立 

  3.满足方差齐性（通过方差齐性检验） 

  方差齐性检验（Homogeneity of variance test）是数理统计学中检查不同样本的总体方差是否相同的一种方法。其基本原理是先对总体的特征作出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受作出推断。常用 
 方法有：Hartley检验、Bartlett检验、修正的Bartlett检验

  统计量： 

$$t = \frac{\overline{x}-\overline{y}}{^{S_{w}}\sqrt{\frac{1}{m}+\frac{1}{n}}}\sim t(m+n-2)$$

其中

$$S_{w} = \frac{1}{m+n+1}[(m-1)S_{1}^{2}+(n-1)S_2^2]$$

2.2、F检验

F检验又叫方差齐性检验，目的是判断两个样本的总体方差是否相等，计算双总体样本检验的前提条件。

2.3、卡方检验

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴，主要是比较两个及两个以上样本率( 构成比）以及两个分类变量的关联性分析。

通过简单的统计我们得出喝牛奶组和不喝牛奶组的感冒率为30.94%和25.00%，两者的差别可能是抽样误差导致，也有可能是牛奶对感冒率真的有影响。

为了确定真实原因，我们先假设喝牛奶对感冒发病率是没有影响的，即喝牛奶喝感冒时独立无关的，所以我们可以得出感冒的发病率实际是（43+28）/（43+28+96+84）= 28.29%

	感冒人数	未感冒人数	合计	感冒率
喝牛奶组	43	96	139	30.94%
不喝牛奶组	28	84	112	25.00%
合计	71	180	251	28.29%

所以，理论的四格表应该如下表所示：

	感冒人数	未感冒人数	合计
喝牛奶组	*=1390.2829**	*=139(1-0.2829)**	139
不喝牛奶组	*=1120.2829**	*=112(1-0.2829)**	112

即下表：

	感冒人数	未感冒人数	合计
喝牛奶组	39.3231	99.6769	139
不喝牛奶组	31.6848	80.3152	112
合计	71	180	251

卡方检验

卡方检验的计算公式为：

$$X^2 = \sum\frac{(A-T)^2}{T}$$

其中，A为实际值，T为理论值。

x2用于衡量实际值与理论值的差异程度（也就是卡方检验的核心思想），包含了以下两个信息：
1. 实际值与理论值偏差的绝对大小（由于平方的存在，差异是被放大的）

2. 差异程度与理论值的相对大小

根据卡方检验公式我们可以得出例1的卡方值为：

卡方 = (43 - 39.3231)平方 / 39.3231 + (28 - 31.6848)平方 / 31.6848 + (96 - 99.6769)平方 / 99.6769 + (84 - 80.3152)平方 / 80.3152 = 1.077

卡方分布的临界值：

上一步我们得到了卡方的值，但是如何通过卡方的值来判断喝牛奶和感冒是否真的是独立无关的？也就是说，怎么知道无关性假设是否可靠？

答案是，通过查询卡方分布的临界值表。

这里需要用到一个自由度的概念，自由度等于V = (行数 - 1) * (列数 - 1)，对四格表，自由度V = 1。

对V = 1，喝牛奶和感冒95%概率不相关的卡方分布的临界概率是：3.84。即如果卡方大于3.84，则认为喝牛奶和感冒有95%的概率不相关。

显然1.077<3.84，没有达到卡方分布的临界值，所以喝牛奶和感冒独立不相关的假设不成立。

3、自由度

定义：自由变动的样本观测值的数目

自由度的设定是出于这样一个理由：在总体平均数未知时，用样本平均数去计算离差（常用小s）会受到一个限制——要计算标准差（小s）就必须先知道样本平均数，而样本平均数和n都知道的情况下，数据的总和就是一个常数了。所以，“最后一个”样本数据就不可以变了，因为它要是变，总和就变了，而这是不允许的。至于有的自由度是n－2什么的，都是同样道理。

在计算作为估计量的统计量时，引进一个统计量就会失去一个自由度。

通俗点说，一个班上有50个人，我们知道他们语文成绩平均分为80，现在只需要知道49个人的成绩就能推断出剩下那个人的成绩。你可以随便报出49个人的成绩，但是最后一个人的你不能瞎说，因为平均分已经固定下来了，自由度少一个了。

4、总结

本文介绍了零假设的概念；几种常用的检验方式，包括：T检验，F检验，卡方检验；自由度的概念，至于不甚清晰的地方以后再补充。