1.6模型的比较和检验

在选择合适的评估方法和相应的性能度量时,计算出性能度量后直接进行比较,会存在以下问题:

  • 模型评估得到的是测试集上的性能,并非严格意义上的泛化性能,两者并不完全相同
  • 测试集上的性能与样本选取关系很大,不同的划分,测试结果会不同,比较缺乏稳定性
  • 很多模型本身有随机性,即使参数和数据集相同,其运行结果也可能存在差异

上述问题按照统计学的知识描述为:已知两个模型 f1和f2 ,两者的泛化性能在测试集上的表现不同, f1好于f2 ,请检验在统计意义上 f1 是否好于 f2 ?这个把握有多大?

用掷硬币问题描述上述问题:

统计学家Fisher先生和一位女士玩掷硬币猜正反面的游戏。女士号称每次都能掷出正面,Fisher先生根据自己的知识认为不可能。然而女士拿出一枚准备好的硬币开始投掷后,果然连续n次的结果都是正面。Fisher先生觉得有两种可能,第一,这位女士运气非常好,能连续掷出正面;第二,硬币被做过手脚,无论谁掷都有很大的可能得到正面。到底是哪种原因呢?

在假设硬币没问题的情况下,投掷结果符合p=0.5的二项式分布:
在这里插入图片描述
第1次投掷,连续1次出现正面的概率为b(1;1,0.5)=0.5
第2次投掷,连续2次出现正面的概率为b(2;2,0.5)=0.25
第3次投掷,连续3次出现正面的概率为b(3;3,0.5)=0.125
第4次投掷,连续4次出现正面的概率为b(4;4,0.5)=0.0625
第5次投掷,连续5次出现正面的概率为b(5;5,0.5)=0.03125
第10次投掷,连续10次出现正面的概率为b(10;10,0.5)=0.000977
如果一个事件发生的概率为5%,我们通常认为它是小概率事件
5%就是假设检验的P值,实际工作中看业务需求,有时候可能会取1%,甚至更小的数值

统计假设检验(Hypothesis Test):事先对总体的参数或者分布做一个假设,然后基于已有
的样本数据去判断这个假设是否合理。即样本和总体假设之间的不同是纯属机会变异(因为
随机性误差导致的不同),还是两者确实不同。

常用的假设检验方法:

  • t-检验法
  • X2检验法(卡方检验)
  • F-检验法
  • ……

基本思想:

  • 从样本推断整体
  • 通过反正法推断假设是否成立
  • 小概率事件在一次试验中基本不会发生
  • 不轻易拒绝原假设
  • 通过显著性水平定义小概率事件不可能发生的概率
  • 全称命题只能被否定而不能被证明

假设检验步骤:

1.建立假设
根据具体的问题,建立假设:
原假设(Null Hypothesis):搜集证据希望推翻的假设,记作 H 0 H_0 H0(假设硬币没有问题)
备择假设(Alternative Hypothesis):搜集证据予以支持的假设,记作 H 1 H_1 H1(假设硬币有问题)
假设的形式:

  • 双尾检验:不等于、有差异
    在这里插入图片描述
  • 左侧单尾检验:降低、减少
    在这里插入图片描述
  • 右侧单尾检验:提高,增加
    在这里插入图片描述

只有小概率事件发生了,才拒接原假设,检验过程保护原假设

2.确定检验水准
检验水准(Size of a Test):又称显著性水平(Significance Level),记作α,是指原假设正确,但是最终被拒绝的概率。
在做检验的过程中,会犯两种错误:

  • 原假设为真,被拒绝,称作第一类错误,其概率记作α,即为显著性水平,取值通常为0.05、0.025、0.01等
  • 原假设为假,被接受,称作第二类惜误,其概率记作β,即为检验功效(power of a test)

显著水平α=0.05的意思是:在原假设正确的情况下进行100次抽样,有5次错误的拒绝了原假设。

3.构造统计量
构造统计量:根据资料类型、研究设计方案和统计推断的目的,选用适当检验方法和计算相应的统计量
常见检验方法:

  • t检验:小样本(<30),总体标准差σ未知的正态分布
  • F检验:即方差分析,检验两个正态随机变量的总体方差是否相等的一种假设检验方法
  • Z检验:大样本(>=30)平均值差异性检测,又称u检验
  • X2检验:即卡方检验,用于非参数检验,主要是比较两个及两个以上样本率以及两个分类变量的关联性分析

4.计算p值
关于p值:

  • 用来判定假设检验结果的参数,和显著性水平α相比
  • 在原假设为真的前提下出现观察样本以及更极端情况的概率
  • 如果P值很小,说明原假设出现的概率很小,应该拒绝,P值越小,拒绝原假设的理由越充足

计算p值:假设原假设为真,可由样本数据计算出统计量,根据统计量的具体分布求出P值

5.得到结论
如果P值小于等于显著水平α,表明x小概率事件发生,拒绝原假设
统计量的值如果落在拒绝域内或者临界值,则拒绝原假设,落在接受域则不能拒绝原假设
在这里插入图片描述

例1:二项式检验
在这里插入图片描述
例2:T检验

在这里插入图片描述

假设检验在模型比较中的应用

以一元线性回归为例,可以使用假设检验作如下比较和推断:

  • 回归系数的显著性检验: y = β 0 + β 1 x y=β0+β1x y=β0+β1x
    • 检验自变量对因变量Y的影响程度是否显著
    • 假设误差 ε 满足均值为0的正态分布,原假设:$H0:β1=0 备 择 假 设 : 备择假设: H1:β1≠0$
    • 使用T检验,如果原假设成立,则x和y并无线性关系
  • 回归方程的显著性检验: y = β 0 + β 1 x y=β0+β1x y=β0+β1x
    • 根据平方和分解式从回归效果检验回归方程的显著性
    • 原假设:$H0:β1=0 备 择 假 设 : 备择假设: H1:β1≠0$
    • 使用F检验,如果原假设成立,则说明回归方程不显著,该方程并无实质意义
  • 相关系数的显著性检验
    • 检验两变量之间是否真正相关,或两个相关系数之间的差异是否显著
    • 原假设:$H0:P=0 备 择 假 设 : 备择假设: H1:P≠0$
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

分数不是数

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值