方差 标准差_估计、偏差和方差

d00f7c69891f2201b8eecf295407c010.png

统计领域为我们提供了很多工具来实现机器学习目标,不仅可以解决训练集上的任务,还可以泛化。基本的概念,例如参数估计、偏差和方差,对于正式地刻画泛化、欠拟合和过拟合都非常有帮助。

1.点估计

点估计试图为一些感兴趣的量提供单个“最优”预测。一般的,感兴趣的量可以是单个参数,或是某个参数模型中的一个向量参数,例如前文线性回归中的权重,但是也有可能是整个函数。

为了区分参数估计和真实值,习惯将参数

的点估计表示为

令 {

, ...... ,
}是m个独立同分布(i.i.d)的数据点。点估计或统计量是这些数据的任意函数:

=g(
, ...... ,
)

这个定义不要求g返回一个真实

的值,或者g的值域恰好是
的允许取值范围。点估计的定义非常广泛,给了估计量的设计者极大的灵活性。虽然几乎所有的函数都可以称为估计量,但是一个良好的估计量的输出会接近生成训练数据的真实参数

现在,我们采取频率派在统计上的观点。换言之,我门假设真实参数

是固定但未知的,而点估计
是数据的函数。由于数据是随机采样过程出来的,数据的任何函数都是随机的,因此
是一个随机变量。

点估计也可以指输入和目标变量之间关系的估计,我们将这种类型的点估计称为函数估计。

函数估计 有时我们会关注函数估计(或函数近似)。这时我们试图从输入向量x预测变量y。假设有一个函数f(x)表示y和x之间的近似关系。假如,我们可能假设y=f(x)+

。其中
是y中未能从x预测的一部分。在函数估计中,我们感兴趣的是用模型估计去近似f,或者估计
。函数估计和估计参数
是一样的,函数估计
是函数空间中的一个点估计。线性回归示例和多项式回归示例都可以被解释为估计参数w,又可以被解释为估计从x到y的函数映射

2.偏差

估计的偏差被定义为:

=
-
——式1

其中期望作用在所有数据(看作从随机变量采样得到的)上,

是用于定义数据生成分布的
的真实值。如果
=0,那么估计量
被称为是无偏,这意味着
=
。如果
=0,那么估计量
被称为是渐进无偏,这意味着
=

示例:伯努利分布——考虑一组服从均值为

的伯努利分布的独立同分布的样本{
,... ,
}:

=
——式2

这个分布中参数

的常用估计量是训练样本的均值:

=
——式3

判断这个估计量是否有偏,将式3代入式1:

---------

---------

---------

---------

---------

因为

,我们称估计
是无偏的。

示例:均值的高斯分布估计

现在,考虑一组独立同分布的样本{

, ..... ,
}服从高斯分布
,其中i
{1,... ,m}。回顾高斯概率密度函数如下:

高斯均值参数的常用估计量被称为样本均值:

判断样本均值是否有偏差,我们再次计算它的期望:

---------

---------

---------

---------

因此我们发现样本均值是高斯均值参数的无偏估计量。

示例:高斯分布方差估计

本例中,我们比较高斯分布方差参数

的两个不同估计,我们探讨是否有一个是有偏的。

我们考虑的第一个方差估计被称为样本方差

其中

是样本均值。更形式化地,我们对计算感兴趣:

——式4

我们首先估计项

--------

回到式4,我们可以得出

的偏差是
。因此样本方差是有偏估计。

无偏样本方差估计:

提供了另一种可选方法。正如名字所言,这个估计是无偏的。换言之,我们会发现

:

------

------

------

我们有两个估计量:一个是有偏的,一个是无偏的。尽管无偏估计显然是令人满意的,但它并不总是“最好”的估计。我们将看到,经常会使用其他具有重要性质的有偏估计。

3.方差和标准差:

我们有时候会考虑估计量的另一个性质是它作为数据样本的函数,期望的变化程度是多少,正如我们可以计算估计量的期望来决定它的偏差,我们也可以计算它的方差。估计量的方差就是一个方差:

其中随机变量是训练集。另外,方差的平方根被称为标准差,记作

估计量的方差或标准差告诉我们,当独立地从潜在的数据生成过程中重采样数据集时,如何期望估计的变化。正如我们希望估计的偏差较小,我们也希望其方差较小。

当我们使用有限的样本计算任何统计量时,真实参数的估计都是不确定的,在这个意义下,从相同的分布得到其他样本时,它们的统计量也会不一样。任何方差估计量的期望程度是我们想量化的误差的来源。

均值的标准差被记作:

其中

的真实方差。标准差通常被记作
。可惜,样本方差的平方根和方差无偏估计的平方根都不是标准差的无偏估计。这两种计算方法都倾向于低估真实的标准差,但仍用于实际中。相较而言,方差无偏估计的平方根较少被低估。对于较大的
,这种近似非常合理。

均值的标准差在机器学习实验中非常有用。我们通常用测试集中样本的误差均值来估计泛化误差。测试集中样本的数量决定了这个估计的精确度。中心极限定理告诉我们均值会接近一个高斯分布,我们可以用标准差计算出真实期望落在选定区间的概率。例如,以均值

为中心的95%置信区间是:

以上区间是基于均值

和方差
的高斯分布。在机器学习实验中,我们通常说算法A比算法B好,是指算法A的误差的95%置信区间的上界小于算法B的误差的95%置信区间的下界。

示例:伯努利分布

我们将再次考虑从伯努利分布(回顾

)中独立同分布采样出来的一组样本{
}。这次我们关注估计
的方差:

---------

---------

---------

---------

估计量方差的下降速率是关于数据集样本数目

的函数。这是常见估计量的普遍性质,在探讨一致性时,我们会继续讨论。

4.权衡偏差和方差以最小化均方误差:

偏差和方差度量着估计量的两个不同误差来源。偏差度量着偏离真实函数或参数的误差期望,而方差度量着数据上任意特定采样可能导致的估计期望的偏差。

当我们可以在一个偏差更大的估计和一个方差更大的估计中进行选择时,会发生什么呢?我们该如何选择?例如,想象我们希望近似图(下图)中的函数,如果只可以选择一个偏差较大的估计或一个方差较大的估计,我们该如何选择呢?

661203c7881a39ec6ef3c3acfaf6908c.png

判断这种权衡最常用的方法就是交叉验证。经验上,交叉验证在真实世界的许多任务中都非常成功。另外,我们也可以比较这些估计的均方误差(MSE)。

------

——式5

MSE度量着估计和真实参数

之间平方误差的总体期望偏差。如式5所示,MSE估计包含了偏差和方差。理想的估计具有较小的MSE或是在检查中会稍微约束它们的偏差和方差。

偏差和方差的关系与机器学习容量、欠拟合和过拟合的概念紧密相联。用MSE度量泛化误差(偏差和方差对于泛化误差都是有意义的)时,增加容量会增加方差,降低偏差。如下图所示,我们再次在关于容量的函数中看到泛化误差的U形曲线。

0a5d45f0b58d7ffd9c5dc5a453f8e0ca.png

5.一致性:

目前我们已经探讨了固定大小训练集下不同估计量的性质。通常,我们也会关注训练数据增多后估计量的效果。特别地,我门希望当数据集中数据点的数量

增加时,点估计会收敛到对应参数的真实值。更形式化地,我们想要:

——式6

符号

表示依概率收敛,即对于任意的
,当
时,有
。式6表示的条件被称为一致性。有时它是指弱一致性,强一致性是指几乎必然从
收敛到
。几乎必然收敛是指当
时,随机变量序列
收敛到
。一致性保证了估计量的偏差会随数据样本数目的增多而减少。然而,反过来是不正确的——渐进无偏并不意味着一致性。例如,考虑用包含
个样本的数据集{
}估计正态分布
参数
。我们可以使用数据集的第一个样本
作为无偏估计量:
。在该情况下,
所以不管观测到多少数据点,该估计量都是无偏的。然而,这不是一个一致估计,因为它不满足当
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值