学习误差理论,会让我一肚子疑惑,学完了之后不知道怎么用。按照目前的理解是,这就是理论,知道有这样的性质,就像我们学高数的时候,一个个公式,我们知道有这么回事就OK了。这部分内容对以后算法调试会奠定理论基础,多读书总是好的!开始正式内容
最主要的两个概念偏差和方差
方差都知道,现在来说说什么是偏差
这个图是我们针对样本进行的拟合的效果,其中图1,我们是用线性拟合,图中我们能看到拟合效果很弱,这个时候带来的问题就是偏差比较大
图三中我们看到,在样本上拟合效果非常好,偏差很小。
但是图一和图三他们的泛化能力都不好,用专业的术语就是泛化误差比较大。
这样一种规律:如果模型过于简单,其具有大的偏倚,而如果模型过于复杂,它就有大的方差。调整模型的复杂度,建立适当的误差模型,就变得极其重要了。
关于偏差和方差我们了解了之后,我们要运用它需要两个重要的引理。
我们在学习的时候,要带着以下三个问题去学习
一. 我们如何通过理论来解决偏差和方差的均衡? 这个会帮助选择模型
二.我们真正关心的是泛化误差,但是我们都是在训练模型上得到是训练误差,我们怎么把训练误差和泛化误差联系起来?
三.有什么理论可以支撑,我们在一定条件下可以证明某个模型是良好工作的?
引理2称为Chernoff边界(Chernoff bound),它说明:假设我们用随机变量的均值去估计参数,估计的参数和实际参数的差超过一个特定数值的概率有一确定的上界,并且随着样本量m的增大,与很接近的概率也越来越大。
在这里写一个我曾经比较困惑过的问题,引理2之所以要这样表示,是后面要用到 Hoeffding不等式,但是
这个式子服从伯努利分布吗? 他是服从的!我们可以把这个式子当成关于x,y的二元函数,二我们上面假设(x,y)是独立同分布的ÿ