课程简介:
本视频为机器学习系列课程第5章。主要定量研究训练与测试之间的关系,并引入学习模型中的一个重要概念--断点。课程深入浅出,从正射线、正区间和凸集三个具体例子入手,寻找突破点,从而得出训练集与测试集的关系。
课程大纲(Outline):
1、从训练到测试(From Training to Testing)
2、举例说明(Illustrative Examples )
3、关键概念---- 断点(Key Notion --- Break Point )
4、难题(Puzzle)
1、从训练到测试
什么是测试?什么是训练?
我们通过举一个例子来阐明这个问题。
假设我们将要进行一场考试,那么我们开始进行复习。为了检验自己的复习质量,我们可能会做大量的练习。可能在第一次做的时候错了很多,但是由于有答案,所以我们可以通过答案来修正我们的问题,然后你接着做(同一套习题),然后你进行修正......随之我们不断地练习,修正,最后我们可能会把练习题做的很好。
这个过程其实就相当于机器学习中的训练。我们修正问题相当于机器学习在修正参数。当我们把习题做的很好地时候相当于机器学习得出了一个 Ein 足够小的函数。但是在这个过程中练习的效果已经不太明显了,因为我们几乎记住了练习的全部答案!因此我们需要付出代价 M(假设集大小) ,于是有了下面的公式一(第二课):
其中 Ein 表示我们对练习的掌握程度,越小越好,Eout 表示我们对教材的掌握程度(我们做练习的目标是为了了解我们对教材的理解程度)
很快我们迎来了考试。我们考试的目的是为了了解自己对教材的理解程度而不是为了拿高分,即是说我们是为了知道 Eout 而进行考试,由于我们无法直接计算 Eout,又根据 Hoeffdings 定理,我们可以通过 Ein(考试成绩)来逼近 Eout,所以我们进行考试。
这个过程就当于机器学习中的测试,是为了检验我们得出来的模型是否能够真实的反映事实!于是有了下面的公式二(注意:这个公式没有 M ,假设我们只考一次):
当该公式为真的时候我们就认为 Ein 能够代表 Eout。
所以训练就是通过不断地在现有资料中进行学习从而得出一个模型来表示这些数据。而测试就是为了检验该模型是否能够反映训练集之外的数据。(看看能不能由特殊推出一般)只有通过了该测试我们才认为该模型是好的。
对于感应机(线性模型)来说,一般假设集都是无穷大的,因此上面第一条公式基本上是没有什么指导意义的,因为任何一个假设都会满足第一个不等式。因此我们需要想办法用一个更合理的值代替 M,从而指导我们更好地学习,这也是本节课的重点内容。为了代替 M,我们需要知道 M 从哪里来。
假