机器学习模型检验方法
原理解释
归纳偏好
- 机器学习算法在学习过程中对某种模型假设的偏好。
- 偏好:通俗地讲就是用于总结数据的规律的曲线。
- 奥卡姆剃刀:在选择函数时,通常选择简单的。
- 任何一个有效的机器学习算法必有其偏好。
- 学习算法的偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能!
NFL定理
- 哪个算法更好?例如:对于黑点(训练样本)A和B都能很好地符合,但是也许会出现白点(测试样本)A能够对它们进行更好地符合,或者B能够对它们更好的符合。由此,提出了NFL定理。
- NFL定理:当一个算法L1在解决某些问题时比另一算法L2好,那么比存在另一些问题上L2比L1更好。
泛化能力
- 什么样的模型是好的?我们提出是能够对未知数据有很好地适用能力。我们把这种能力称为泛化能力。
- 然而,如何评价一个模型的泛化能力是否强呢?例如:可以用错误率低、精度强等来判断。
- 但是我们手上没有未知数据,未知数据要如何获得的问题,接下来的部分会接着叙述。
过拟合与欠拟合
- 为了提高模型的泛化能力,是否减少训练时的误差越小越好呢?其实并不是,在训练时,如果模型过分学习将某些特性学去了,也会造成泛化能力弱。
- 过拟合:如上例所展示,模型学习过程,对树叶的训练过分学习,认为树叶必须有锯齿,那么也会造成对未知样本的错误判断。
- 欠拟合:上述模型在训练模型时,欠缺学习,认为只要是绿色就是树叶,也会对未知样本造成对未知样本的错误判断。
- 机器学习的一大难点在于如何找到中间最适合的位置。
模型检验的三大问题
- 我们如何为具体的问题选择合适的模型,至少要考虑以下三个关键问题:
- 我们并没有未知数据怎么去判断测试结果怎么样,需要对评估方法有一个设计。
- 性能度量:是做100次对99次就是好的模型吗,还是有别的考量因素。
- 比较检验:我们应该在统计意义上,判断模型的好坏。
以上就是本文的全部内容,感谢各位的阅读与支持!