一、机器无法学习的情况
先看一个例子吧:
给你两行图片,第一行的图片赋给它值是-1,第二行图片赋给它值是+1,问你下面这张图片的值是多少?
无论你回答+1还是-1,我可都可以说你的判断错误。
一种是判断方法是:第一行的左上角的方格是黑色的,第二行的左上角都没有黑色,我就说左上角的方格是黑色的就认为是-1,反之则是+1。那么给出的那张图是-1。
另外一种判断方法是:第二行的图片总是可以找到一条线使其对称,第一行就不能,所以我说对称的是+1,不对称的就是-1.那么给出的那张图是+1.
从上面的例子可以看出,有些情况我们人类都学习不到,更不用说机器去学习了。
二、对未知的结果进行推论
那么对于上面的情况,我们该怎么办?其实现实生活中我们不需要学习到完全准确的准则,举一个例子,给你一个罐子,里面有橘色和绿色的弹珠,请问里面橘色的弹珠的比例占多少?我们不能把所有的弹珠都拿出来进行数,这样的话我们就真的不知道橘色的比例,那么我们可以用什么办法估计一下呢?
方法如下:
我们从罐子中抓取一把出来,然后就用抓出来的结果作为判断橘色占的比例,就是一个抽样的结果。
那么这种方法得出的结果一定是真实的橘色的比例吗?不是的,有可能罐子中有很多橘色的,但是你抽一把出来有可能是全部绿色的,但是这种情况发生的几率是很小的,这其实就是我们数学上一个定理:,这个不等式叫霍夫丁不等式,其中ν指的是我们抽样得出的结果,μ是指的是罐子中实际的橘色的所占的比例,那么这个公式代表的意思是,你抽一把出来得出的结果和实际的结果的差别大于ε的概率是比较小的,小于多少,小于,也就是说我们抽样的结果和实际的结果大概是对的,和实际的结果很接近,当我们抽取的数量越来越多时,也就是N越来越大,或者我们把容忍度增加时,就是ε增加,我们的抽样的结果和实际的结果接近的概率越来越大。
三、Verification
上面讲了半天的概率的东西,下面我们和机器学习进行结合:
根据上面的讲解我们知道:1.我们不知道的橘色的弹珠所占的比例 μ
2.我们有一罐的弹珠
3.抽样之后得出一个结果
那么我们机器学习中:1.我们未知的是目标函数f(x),那么我们也就是不知道我们的假设函数对某一样本的判断结果和目标函数结果是否相等:
2.我们知道的是自己的假设函数,我们也知道样本的实际结果,那么我们拿到一个样本,我们就可以判断对于改样本,我们的假设函数的判断是否正确
3.那么我们如果抽样一批的样本,我们就可以得出这一批样本,我们的假设函数的判断的结果是否正确的比例。
E(out)(h)指的就是我们的假设函数和目标函数实际 的相近程度,这个我们是不知道的。
E(in)(h)指的就是从抽取的样本中的判断,我们的假设函数和目标函数的相近程度,这个是可以得出的。
根据上面的霍夫丁不等式:
可以得出我们的E(in)(h)和E(out)(h)在很大的几率上式很接近的。
注意:我们此刻得出的是我们的假设函数和目标函数的相近程度,但是我们并没有得出我们的假设函数和目标函数很接近,意思就是说我们只是得出了判断的方式,而没有得到判断的结果。
四、机器进行学习
上面说我们只是得到了判断假设函数和目标函数的相近程度。但是想一想,如果对于一批样本,如果我们有很多个假设函数,如果某一个假设函数对于该样本集合判断全部正确,也就是E(in)(h)=0,那么我们就一定要选择这样的假设函数作为我们最终学习得到g吗?不是的,为什么呢,因为我们的样本有可能会出现极端情况,使得我们的算法找到了一个极端的假设函数,这样的样本集合就是不好的。
如果我们有很多个样本集合呢?
也就是说如果有很多的样本集合和很多的假设函数,那么对于每一个样本集合,当我们选择假设函数的时候发生选择极端情况的几率是多少呢?
由推导可以看出,我们任意选择一个样本集合,用它来对假设函数进行选择,发生不好的几率是随着N的增加而减小的,当N大到一定程度的时候这时,我们就认为此时找到的g(犯错的几率最小的h)最接近目标函数f。
总结:限于语言表达能力,讲解的可能有些不太好理解,其实很简单的,不太理解的同学可以看一下原视频。