机器学习第四章走起~
1.机器学习是否可行,从前面讲述,好像我们学习后的结果,只能保证在已经给出的资料中,我们的g和f是一样的,那么对于这些资料以外的新的资料呢?我们能保证是对的嘛?如果我是坏心的老师,总可以否定你的预测,似乎机器学习陷入了危机=
对于一个大罐子,有绿色和橙色的球,我们想要知道各种颜色所占的比例。
我们的方法是取10个,称作sample
罐子橙色比例 是u ,而samle中橙色比例是v,那么自然由概率论知识我们知道u和v是有一定关系的
在大部分的时候,u和v是接近的,但是也有比较小的概率误差很大
用数学解释
P[|v-u|> ∈] ≤ 2exp(-2*∈*∈*N) 霍夫丁的不等式N是样本的大小,∈是你能容忍的误差大小。
所以如果我们N足够大,或者我们容忍足够大,那么我们可以看做u和v是大概可能相等的
下面对应到机器学习
对于罐子里面的每个弹珠,我们都把它假设成为一个输入
对于f(x) ≠ h(x),那么这个弹珠是橙色,如果f(x) = h(x),那么这个弹珠是绿色的
所以我们可以从取出的sample 里面来估计h(x)和f(x)不一样的比例。
Eout :整个罐子里的u
Ein:sample 里面的v
P[|Ein-Eout|> ∈] ≤ 2exp(-2*∈*∈*N)
由于Eout ≈Ein ,如果在Ein很小,是不是就可以说明学习到东西了呢?
如果没有选择,在Ein并不小的情况下,那么我们只能说明,我们在验证,不能说我们学到了东西。
上面只是针对一个h的情况
那么我们在有很多个h的情况下,如何说明我们学习到了呢?
比如,我们有150个h,每个h取sample。如果一个h的sample是全对,那么我们可以说这个h是最好的,是全对的吗?
们要考虑这样的情况。
假设有150个人,没人丢硬币5次,我们知道真正的f是0.5,每个人丢的情况是一个h,那么出现5次正面的概率是1-(31/32)的150次方 > 99%,那么我们面对这样的概率,还能说Eout ≈ Ein吗?
由上面的不等式,知道Eout和Ein相差很大的几率很小,但是当h的选择增多以后,显然会恶化这种情况。
所以我们定义不好的资料,
当Ein 和 Eout差距很大,就是不好的资料
那么用不等式来解释
P(BAD) = P(BAD for h1 or BAD for h2... or BAD for hm ),因为对于每个h来说,不同的资料有可能是不同的,所以用or
<=P(BAD for h1) + P(BAD for h2) + ... + P(BAD for hm).<= 2exp(-2*∈*∈*N) + 2exp(-2*∈*∈*N) +...+ 2exp(-2*∈*∈*N)
=2Mexp(-2*∈*∈*N)
所以有M个h的时候,那么选择到Eout 和 Ein相差很大的几率会乘上100倍
所以当M时有限的,如果N足够大,我们还是可以说Eout ≈ Ein,所以当Ein很小的时候,还是可以说我们是有学习到东西的。
但是像PLA一样,我们的线是无限条的,对于M=∞的时候,我们又改怎么理解呢?