[机器学习][2]--霍夫丁不等式
这一章是为了说明机器学习的可行性的。为了解决一个问题,即我们找到了一个符合要求的函数f,这个函数在测试数据中准确率为90%,那么是否有该函数f在整体中的正确率也有90%,或者说和90%相差不大。
我上面说的话很重要,下面就是为了解决上面的问题,一般文章都是那从罐子里取出小球做类比。
下面我放一篇参考文章机器学习的可能性。
我自己就来讲讲这个内容。
如上图,我们要估计罐子中绿色球所占的比例,但是我们不能把所有球都取出来,这时我们就想到了取样,然后看看取出的样本中绿色的球所占的比例。
那么我们要想得就是,样本要取多少呢。
不要担心,我们有霍夫丁不等式
v和u(不打那两个符号了,大家看得明白就可以了),v代表罐子中绿色球实际的比例,这个比例我们不知道,我们想要估计他,u是样本中绿色所占的比例。然后就由上面的不等式可以得到 u和v 的差大于一个我们所给误差的概率小于一个数(右边那个数),我们可以看到,是随着N的增大而减小,随着的减小而增大,也就是说,我们要使得误差越小,就要增加样本量。这样就能用样本中计算得到的绿球的比例取估计实际绿球的比例了。
在机器学习中也是一样的,我们为了估计我们得到的函数f的准确率,就看f在我们有的样本中的准确率,以此来估计f对于整个系统的正确率。