统计领域为我们提供了很多工具来实现机器学习目标,不仅可以解决训练集上的任务,还可以泛化。基本的概念,例如参数估计、偏差和方差,对于正式地刻画泛化、欠拟合和过拟合都非常有帮助。
1.点估计
点估计试图为一些感兴趣的量提供单个“最优”预测。一般的,感兴趣的量可以是单个参数,或是某个参数模型中的一个向量参数,例如前文线性回归中的权重,但是也有可能是整个函数。
为了区分参数估计和真实值,习惯将参数
令 {
这个定义不要求g返回一个真实
现在,我们采取频率派在统计上的观点。换言之,我门假设真实参数
点估计也可以指输入和目标变量之间关系的估计,我们将这种类型的点估计称为函数估计。
函数估计 有时我们会关注函数估计(或函数近似)。这时我们试图从输入向量x预测变量y。假设有一个函数f(x)表示y和x之间的近似关系。假如,我们可能假设y=f(x)+
2.偏差
估计的偏差被定义为:
其中期望作用在所有数据(看作从随机变量采样得到的)上,
示例:伯努利分布——考虑一组服从均值为
这个分布中参数
判断这个估计量是否有偏,将式3代入式1:
---------
---------
---------
---------
---------
因为
示例:均值的高斯分布估计
现在,考虑一组独立同分布的样本{
高斯均值参数的常用估计量被称为样本均值:
判断样本均值是否有偏差,我们再次计算它的期望:
---------
---------
---------
---------
因此我们发现样本均值是高斯均值参数的无偏估计量。
示例:高斯分布方差估计
本例中,我们比较高斯分布方差参数
我们考虑的第一个方差估计被称为样本方差:
其中
我们首先估计项
--------
回到式4,我们可以得出
无偏样本方差估计:
提供了另一种可选方法。正如名字所言,这个估计是无偏的。换言之,我们会发现
------
------
------
我们有两个估计量:一个是有偏的,一个是无偏的。尽管无偏估计显然是令人满意的,但它并不总是“最好”的估计。我们将看到,经常会使用其他具有重要性质的有偏估计。
3.方差和标准差:
我们有时候会考虑估计量的另一个性质是它作为数据样本的函数,期望的变化程度是多少,正如我们可以计算估计量的期望来决定它的偏差,我们也可以计算它的方差。估计量的方差就是一个方差:
其中随机变量是训练集。另外,方差的平方根被称为标准差,记作
估计量的方差或标准差告诉我们,当独立地从潜在的数据生成过程中重采样数据集时,如何期望估计的变化。正如我们希望估计的偏差较小,我们也希望其方差较小。
当我们使用有限的样本计算任何统计量时,真实参数的估计都是不确定的,在这个意义下,从相同的分布得到其他样本时,它们的统计量也会不一样。任何方差估计量的期望程度是我们想量化的误差的来源。
均值的标准差被记作:
其中
均值的标准差在机器学习实验中非常有用。我们通常用测试集中样本的误差均值来估计泛化误差。测试集中样本的数量决定了这个估计的精确度。中心极限定理告诉我们均值会接近一个高斯分布,我们可以用标准差计算出真实期望落在选定区间的概率。例如,以均值
以上区间是基于均值
示例:伯努利分布
我们将再次考虑从伯努利分布(回顾
---------
---------
---------
---------
估计量方差的下降速率是关于数据集样本数目
4.权衡偏差和方差以最小化均方误差:
偏差和方差度量着估计量的两个不同误差来源。偏差度量着偏离真实函数或参数的误差期望,而方差度量着数据上任意特定采样可能导致的估计期望的偏差。
当我们可以在一个偏差更大的估计和一个方差更大的估计中进行选择时,会发生什么呢?我们该如何选择?例如,想象我们希望近似图(下图)中的函数,如果只可以选择一个偏差较大的估计或一个方差较大的估计,我们该如何选择呢?
判断这种权衡最常用的方法就是交叉验证。经验上,交叉验证在真实世界的许多任务中都非常成功。另外,我们也可以比较这些估计的均方误差(MSE)。
------
MSE度量着估计和真实参数
偏差和方差的关系与机器学习容量、欠拟合和过拟合的概念紧密相联。用MSE度量泛化误差(偏差和方差对于泛化误差都是有意义的)时,增加容量会增加方差,降低偏差。如下图所示,我们再次在关于容量的函数中看到泛化误差的U形曲线。
5.一致性:
目前我们已经探讨了固定大小训练集下不同估计量的性质。通常,我们也会关注训练数据增多后估计量的效果。特别地,我门希望当数据集中数据点的数量
符号