机器学习数学基础八：假设检验

最新推荐文章于 2024-04-08 11:06:40 发布

喜欢吃豆

最新推荐文章于 2024-04-08 11:06:40 发布

阅读量1.5k

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/m0_63309778/article/details/124309616

版权

机器学习专栏收录该内容

19 篇文章 12 订阅

订阅专栏

一，假设检验基本思想

1，假设检验的基本意义：

1）什么是假设:对总体参数(均值，比例等)的具体数值所作的陈述。比如，我认为新的配方的药效要比原来的更好。
2）什么是假设检验:先对总体的参数提出某种假设，然后利用样本的信息判断假设是否成立的过程。比如，上面的假设我是要接受还是拒绝呢。

2，假设检验的基本思想：

3，显著性水平：

●一个概率值，原假设为真时，拒绝原假设的概率，表示为alpha常用取值为0.01, 0.05, 0.10
●一个公司要来招聘了，本来实际有200个人准备混一 -混，但是公司希望只有5%的人是浑水摸鱼进来的，所以可能会有200*0.05=4个人混进来，所谓显著性水平a，就是你允许最多有多大比例浑水摸鱼的通过你的测试。

4，假设检验的步骤：

●提出假设
●确定适当的检验统计量
●规定显著性水平
●计算检验统计量的值
●做出统计决策

5，原假设与备择假设：

●待检验的假设又叫原假设，也可以叫零假设，表示为H0。(零假设其实就是表示原假设- - 般都是说没有差异，没有改变。。。)
●与原假设对比的假设叫做备择假设，表示为H1
●一般在比较的时候，主要有等于，大于，小于

6，检验统计量

●计算检验的统计量
●根据给定的显著性水平，查表得出相应的临界值
●将检验统计量的值与显著性水平的临界值进行比较
●得出拒绝或不拒绝原假设的结论

7，检验中常说的小概率：

●在一次试验中，一个几乎不可能发生的事件发生的概率
●在一次试验中小概率事件一旦发生，我们就有理由拒绝原假设
●小概率由我们事先确定

二，左右侧检验与双侧检验

1，P值：

●是一个概率值
●如果原假设为真，P-值是抽样分布中大于或小于样本统计量的概率
●左侧检验时，P-值为曲线上方小于等于检验统计量部分的面积
●右侧检验时，P-值为曲线上方大于等于检验统计量部分的面积

2，左侧检验与右侧检验

●当关键词有不得少于/低于的时候用左侧，比如灯泡的使用寿命不得少于/低于700小时时
●当关键词有不得多于/高于的时候用右侧，比如次品率不得多于/高于5%时

3，双侧检验

●单侧检验指按分布的一侧计算显著性水平概率的检验。用于检验大于、小于、高于、低于、优于、劣于等有确定性大小关系的假设检验问题。这类问题的确定是有一定的理论依据的。假设检验写作: μ1 <μ2或μ1>μ2。
●双侧检验指按分布两端计算显著性水平概率的检验，应用于理论上不能确定两个总体一个一定比另一个大或小的假设检验。-般假设检验写作H1: μ1≠μ2。

例如，某种零件的尺寸，要求其平均长度为10cm,大于或小于10cm均属于不合格我们想要证明(检验)大于或小于这两种可能性中的任何一种是否成立建立的原假设与备择假设应为:
H0:μ= 10H1:μ≠10

4，检验结果

单侧检验.
●若p值> a,不拒绝H0
●若p值<a,拒绝H0

双侧检验
●若p-值> a/2,不拒绝H0
●若p-值<a/2,拒绝H0

三，总体均值检验

1，Z检验原理：

●当总体标准差己知,样本量较大时用标准正态分布的理论来推断差异发生的概率，从而比较两个平均数的差异是否显著
●标准正态变换后Z的界值

2，Z检验实例：

3，T检验基本原理：

根据研究设计,t检验有三种形式:
●单个样本的t检验:
用来比较一组数据的平均值和一个数值有无差异。例如，你选取了5个人，测定了他们的身高，要看这五个人的身高平均值是否高于、低于还是等于1.70m,就需要用这个检验方法。
●配对样本均数t检验(非独立两样本均数t检验)
用来看一组样本在处理前后的平均值有无差异。比如，你选取了5个人，分别在饭前和饭后测:量了他们的体重，想检测吃饭对他们的体重有无影响，就需要用这个t检验。
●两个独立样本均数t检验
用来看两组数据的平均值有无差异。比如，你选取了5男5女，想看男女之间身高有无差异，这样，男的一组，女的一组，这两个组之间的身高平均值的大小比较可用这种方法。

1，单个样本T检验：

●又称单样本均数t检验(onesamplettest)，适用于样本均数与己知总体均数μ0的比较,目的是检验样本均数所代表的总体均数p是否与已知总体均数μ0有差别。
●己知总体均数μ0--般为标准值、理论值或经大量观察得到的较稳定的指标值。
●应用条件：总体标准a未知的小样本资料，且服从正态分布。

实例：

2，配对样本均数T检验：

●简称配对t检验(paired t test),又称非独立两样本均数t检验，适用于配对设计计量资料均数的比较。
●配对设计(paireddesign)是将受试对象按某些特征相近的原则配成对子，每对中的两个个体随机地给予两种处理。

原理：

●配对设计的资料具有对子内数据--一对应的特征,研究者应关心是对子的效应差值而不是各自的效应值。
●进行配对t检验时，首选应计算各对数据间的差值d,将d作为变量计算均数。
●配对样本t检验的基本原理是假设两种处理的效应相同，理论上差值d的总体均数μd为0，现有的不等于0差值样本均数可以来自μd=0的总体,也可以来μd≠0的总体。
●可将该检验理解为差值样本均数与已知总体均数μd(μd=0)比较的单样本t检验,其检验统计量为:

例子：

3，两独立样本T检验：

●两独立样本t检验(two independent sample t-test)，又称成组t检验。
●适用于完全随机设计的两样本均数的比较，其目的是检验两样本所来自总体的均数是否相等。
●完全随机设计是将受试对象随机地分配到两组中，每组患者分别接受不同的处理，分析比较处理的效应。
●两独立样本t检验要求两样本所代表的总体服从正态分布N(μ1，σ^2)和N(μ2， σ^2)，且两总体方差σ1^2、σ2^2相等,即方差齐性。若两总体方差不等需要先进行变换

原理：

两独立样本t检验的检验假设是两总体均数相等,即HO:μ1=μ2，也可表述为μ1-μ2=0,这里可将两样本均数的差值看成一-个变量样本，则在H0条件下两独立样本均数，t检验可视为样本与已知总体均数μ1 - μ2=0的单样本t检验,统计量计算公式为:

例子：

4，T检验应用条件：

●两组计量资料小样本比较
●样本对总体有较好代表性，对比组间有较好组间均衡性一随机抽样和随机分组
●样本来自正态分布总体，配对t检验要求差值服从正态分布，大样本时，用z检验，且正态性要求可以放宽
●两独立样本均数t检验要求方差齐性一两组总体方差相等或两样本方差间无显著性

1，正态性检验和两总体方差的齐性检验：

1）正态性检验：

●图示法:常用的图示法包括P-P图法和Q-Q图法。图中数据呈直线关系可认为呈正态分布，不呈直线关系可认为呈偏态分布。
●偏度检验:主要计算偏度系数，H0: G1=0，总体分布对称H1: G1≠0，总体分布不对称。

●峰度检验：

2）方差齐性检验：

式中S1^2为较大的样本方差S2^2为较小的样本方差，分子的自由度为v1，分母的自由度为v2，相应的样本例数分别为n1和n2。F值是两个样本方差之比，如仅是抽样误差的影响，它- - 般不会离1太远，反之，F值较大，两总体方差相同的可能性较小。F分布就是反映此概率的分布。求得F值后，查附表，F界值表得P值，Fa，不拒绝H0，可认为两总体方差相等; F2Fa/2(v1， v2) ，则P≤a，拒绝H0，可认为两总体方差不等。