“没有免费的午餐”定理（NFL定理）

最新推荐文章于 2024-04-16 10:41:40 发布

fly___2019

最新推荐文章于 2024-04-16 10:41:40 发布

阅读量2.7k

点赞数 1

分类专栏：机器学习文章标签：没有免费的午餐 NFL

本文链接：https://blog.csdn.net/fly___2019/article/details/88798705

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

“没有免费的午餐”定理（NFL定理）的理解上篇

最近在看这个，个人的理解而已。

简介

在机器学习过程中，需要确定一个假设，从而确定了整个假设空间，而学习的过程就是在假设空间的众多假设中找到与样本数据集表现一致或者最相近的假设。

#与数据集表现一致或相近的假设可能很多，如何确定某个具体的假设？这就是算法的归纳偏好。
当面对一个二分类的问题时，如果采用线性可分支持向量机对该数据进行学习，则假设“整个训练数据集是线性可分的”（确定一个假设），假设空间则为ax+b=0，其中x表示样本的特征向量，a≠0，b为任意常数。

如下图所示，其中a、b为支持向量，d为向量机学习到的模型。
直线a到b这片区域可以理解为版本空间（真实的版本空间可能比这个大）
这里面就产生了一个疑问，为什么要在众多的版本空间中选择直线d作为模型，来预测新样本的分类？
这就是算法的偏好，支持向量机算法的偏好是选择能尽可能将正例和负例完全分开的直线。

那么这种偏好就一定好吗？
不一定，对于有些问题（或大多数问题）支持向量机的这种偏好可能很好，但是对于另一些问题（譬如真实分类界限是曲线），则可能产生较差的效果。
我们希望学习到的真实分类界限，可能是c，甚至可能不是直线，可能是整个版本空间的任意划分。

但是，任何一种机器学习算法都有归纳偏好，否则我们无法从众多的版本空间中确定某个特定的假设，而无法产生确定的学习效果。某些算法可能在解决这些问题时，能产生很好的效果，也就意味着在另外一些问题上会表现差。

“没有免费的午餐”定理

《机器学习》中表示，“没有免费的午餐”指的是：在所有的“问题”出现的机会相同，或所有问题同等重要的条件下，任何算法在除训练集以外的整个样本空间预测误差的期望是相同的。

同样有点难以理解：
1、在所有的“问题”出现的机会相同，或所有问题同等重要的条件
这句话的意思是在面对一组数据（训练集）时，如图所示，我们只是按照一个确定的算法，找到一条确定的直线（归纳偏好），其实我们也不知道真实的分界线应该在哪里。但是，面对不同问题，真实的分界线可能是a到b之间任意直线（或曲线），机会相同指的是任意一条分界线出现的概率相同。
2、任何算法在除训练集以外的整个样本空间预测误差的期望是相同的
下面的公式指的是算法La在训练集以外的样本误差的期望。在这里插奥德赛
在算法La和算法Lb
在这里插入图片描述
具体推导过程暂时略过，下次有机会再补。
表明，不同的算法对训练集外的样本误差期望是相同的。