西瓜书第一章总结
1.版本空间
在对假设空间进行搜索的过程中,不断的删除与正例不一致的假设以及与反例一致的假设,最终会获得与训练集一致的假设,由于现实问题中常常面临很大的假设空间,而学习过程是基于有限样本训练集进行的,所以可能会有多个假设和训练集一致,该多个假设组成的假设集合称为版本空间。
2.没有免费的午餐定理
对于一个学习算法λa,若它在某些问题上比学习算法λb好,则必然在另一些问题上,在那里λb比λa好。下面进行简单证明
假设样本空间X和假设空间H都是离散的。令P(h|X‘,λa)代表算法λa基于训练数据X’产生假设h的概率
,令f代表希望学习的真实目标函数,λa的训练集外误差即λa在训练集之外的所有样本上的误差为
考虑二分类问题,且真实目标函数可以是任何函数X->{0,1},函数空间为{0,1}^|x|,对所有可能的f按照均匀分布对误差求和,有
上式表明,总误差与学习算法无关,即对于任意两个学习算法λa和λb
引申(课后习题)
上述采用分类错误率作为性能度量来进行对分类器进行评估。若换用其他性能度量L,则上式将改为
,试证明没有免费的午餐定理仍成立
证明如下
将l(h(x),f(x))看作损失函数,则
为定值,设该定值为M,
即上式等价于
即
参考文献
[1] 周志华.[机器学习]