机器学习模型检验方法

机器学习模型检验方法


原理解释

归纳偏好

  • 机器学习算法在学习过程中对某种模型假设的偏好。
  • 偏好:通俗地讲就是用于总结数据的规律的曲线。
  • 奥卡姆剃刀:在选择函数时,通常选择简单的。
    在这里插入图片描述
  • 任何一个有效的机器学习算法必有其偏好。
  • 学习算法的偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能!

NFL定理

在这里插入图片描述

  • 哪个算法更好?例如:对于黑点(训练样本)A和B都能很好地符合,但是也许会出现白点(测试样本)A能够对它们进行更好地符合,或者B能够对它们更好的符合。由此,提出了NFL定理。
  • NFL定理:当一个算法L1在解决某些问题时比另一算法L2好,那么比存在另一些问题上L2比L1更好。

泛化能力

在这里插入图片描述

  • 什么样的模型是好的?我们提出是能够对未知数据有很好地适用能力。我们把这种能力称为泛化能力。
  • 然而,如何评价一个模型的泛化能力是否强呢?例如:可以用错误率低、精度强等来判断。
  • 但是我们手上没有未知数据,未知数据要如何获得的问题,接下来的部分会接着叙述。

过拟合与欠拟合

  • 为了提高模型的泛化能力,是否减少训练时的误差越小越好呢?其实并不是,在训练时,如果模型过分学习将某些特性学去了,也会造成泛化能力弱。
    在这里插入图片描述
  • 过拟合:如上例所展示,模型学习过程,对树叶的训练过分学习,认为树叶必须有锯齿,那么也会造成对未知样本的错误判断。
  • 欠拟合:上述模型在训练模型时,欠缺学习,认为只要是绿色就是树叶,也会对未知样本造成对未知样本的错误判断。
  • 机器学习的一大难点在于如何找到中间最适合的位置。在这里插入图片描述

模型检验的三大问题

  • 我们如何为具体的问题选择合适的模型,至少要考虑以下三个关键问题:
    在这里插入图片描述
  • 我们并没有未知数据怎么去判断测试结果怎么样,需要对评估方法有一个设计。
  • 性能度量:是做100次对99次就是好的模型吗,还是有别的考量因素。
  • 比较检验:我们应该在统计意义上,判断模型的好坏。

以上就是本文的全部内容,感谢各位的阅读与支持!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值