记录第一遍没看懂的
记录觉得有用的
其他章节:
第一章
第三章
第五章
第六章
第七章
第八章
第九章
第十章
十一章
十二章
十三章
十四章
十五章
十六章
1.4 归纳偏好公式解析
公式(1.1)解析
其中,E表示期望,下标ote表示“训练集外误差”(Out of Traing set Error),那么Eote(La|X,f)表示的就是给定数据集和真实目标函数的情况下,算法La的训练集外误差的计算方式。
范围x∈X-X,即样本空间数据减去训练集数据,也就是“训练集外”,那么P(x)就表示取到训练集外数据x的概率;指示函数中,h(x)≠f(x)表示假设值不等于真实值,即预测错误时,指示函数取1;P(h|X,La)表示已知数据集,通过算法得到的假设(算法内部有很多随机因素影响,h仍然是个概率事件)。
简言之,就是数据集本身的概率乘以预测的对错乘以模型被得到的概率,你用到的数据和模型的所有可能性加起来,就是训练集外误差的期望。
公式(1.2)解析
这个公式是对上面(1.1)的一个推导演化,相当于上式左右都求和。相当于假设每个可能的函数f出现的概率是均匀的,对这些可能求和。
由于后续中,只有指示函数(h(x)≠f(x))中出现了f,因此,把∑f移到后面,∑h同理。
X在上式中已经描述,是整个特征空间的样本,而|X|就表达特征空间中所有点的数量,对于二分类问题,空间中的每一个组合,都有两种可能,也就是2|X|,表示这个空间中,所有可能性的数量。我们的指示函数是在预测错误时取1,考虑到是按均匀分布,所以是1/2的概率。这样的话,最后一项相当于运算出来的一个常数。
不论什么分布,所有的h的概率加起来一定是1,即∑h那一项实际等于1
这样综合推导,得到公式(1.2),可以看出,最后的公式已经与La无关了。(p.s.别忘了我们的假设,f按均匀分布,这个假设是不客观的)。
这个定理的意义,在后文也揭示了:脱离具体问题,空泛地谈论"什么学习算法更好"毫无意义
数学真的看得脑壳痛QWQ