Bias - Variance Dilemma(偏差-方差窘境)
Motivation
在早期的研究中,人们直观的认为在前提假设(有限的样本空间即抽样所得样本分布,即样本假设空间有限情况。对于假设空间无限时需引入VC维讨论泛化误差的上界,在此不做介绍(样本空间无限时,泛化误差上界只与样例数目有关,而于数据分布和样例集无关))下提高分类器概率估计的准确率即可提高其预测的准确率(对于有限假设空间,其实泛化误差上界与训练误差,即训练误差越小,泛化误差上界也越小。因此,在某种程度上可以认为训练误差越小,模型泛化误差(上界)越小)。然而真实情况却是当分类器在拥有较高的概率估计准率情况下,其对新样本的预测性能并没有较大的提高甚至会有所下降。相反一些经典的分类器如朴素贝叶斯、最近邻方法虽然其在高维的数据下并没有较高的概率估计准确率但是其对新样本的预测却能获得不错的结果(朴素贝叶斯早期在文本的预测中如垃圾邮件的分类能有不错的效果,但是有关其为何能在这种大胆的假设下(各因素相互独立,利用独立概率分布代替联合概率分布)取得好的分类效果现在仍不十分明确。一种解释是文本的上下文并没有太大的关联,另一种解释是文本中存在“正负相抵”的影响,如情感等)。甚至有时通过“简化”预测的流程(也就是正则化、剪枝、Dropout等操作)也可以提高分类器也测的准确率。对于这种现象学者们进行了一系列的研究,认为有必要提出一种新的不同的指标去观察分类器的性能。
Introduction
Bias-Variance decomposition
机器学习中预测是一个十分常见且重要的问题。即我们如何利用给定的一些数据的attributes(inputes)
记分类器的输入为
式(1)即为分类器的映射函数。此时我们希望寻求一个最优的(理想的)$f(x)$,使得其对于输入$X$的输出
上式中,
对于有监督学习的分类器,其会根据训练数据
以回归问题为例,众所周知对于训练样本
分布均值:
方差:
因此有:
注意到
因此式(4)可化简为:
记
这里我们称
方差反映了函数
对于给定的偏差其方差将随着训练样本的增加而减小。因此在大量样本的前提下,学习任务即转化为使模型的偏差较小,在这样的策略下某些算法取得了不错的效果。然而对于一些分类问题的模型,该策略并不管用如朴素贝叶斯和最近邻方法,其在较高的偏差下仍然有很强的竞争力。
Nonparametric inference algorithms(Neural Netwoeks) bias-variance dilemma
近些年由于深度学习的强势表现,神经网络这种连接主义的方法大有“一统江湖”的趋势,因此在现在深度神经网络红的发紫的今天我们很有必要去探究神经网络这类方法在给定的时间和数据的条件下是否会存在偏差-方差窘境(of course),以及这类方法的极限局限在哪?
在以上的讨论中我们已经知道了任何模型的泛化误差可以分解为偏差与方差,同时增加训练样本可以减小方差,提高模型的性能。对于复杂的问题,我们只能根据model-based estimation去控制方差,然而model-based inference往往又会趋向于偏差最小(神经网络我们以最小均方误差作为损失函数其实就是只考虑了偏差对模型的影响)。此外神经网络的参数数目(网络的复杂程度)也将会影响偏差与方差的大小。例如,当神经网络的隐层神经元数目为1时,模型的表达能力有限此时将会存在较大的偏差,而当神经元数目较多时,此时偏差将减小而方差将占误差的主导作用。因此在面对复杂问题时,模型往往会陷入“偏差-方差窘境”。
对于给定样本集
更全面的度量方法是考虑j积分均方误差,即:
1990年 White 在"Connectionists nonparametric regression: multilayer feedforward networks can learn arbitrary mappings"中证明对于神经网络模型,当训练样本增加时模型的偏差和方差均将会缓慢降低,这也在一定程度上揭露了通过增加训练样本数目缓解“偏差方差窘境”的方法。
假设训练数据记为
- Nearest-Neighbor Regression
K-近邻方法简单的说即使对于输入数据
上式中,
- Parzen- Window Regression
这里取较为常见的Gaussian kernel(RBF kernel),如下所示:
上式中,
记高斯核函数为
当输入
对于分类问题其高斯核密度函数如下:
上式中,
- Neural Network
有关简单神三层经网络的介绍在此就不详细展开了(可以参看我的另一篇文章:BP算法介绍)。这里取目标函数为均方误差(回归问题):
对于目标函数我们使用BP算法求解权值
Experimnets
Geman S.对于偏差-方差的trade-off给出了一系列实验以证实上述结论(参阅Geman S, Bienenstock E. Neural networks and the bias/variance dilemma[M]. MIT Press, 1992.)。
这里我们记训练样本集
其输出
根据上述描述随机产生100个样本集合
实验观察结果如下所示:
(
观察图4知随着
同理,对于神经网络隐层神经元数量对偏差、方差的影响如下图所示:
而对于神经网络,当隐层神经元数目较少时,偏差占主导作用。当神经元数目逐渐增加时,偏差减小而方差增加。
同时作者还选取了1200张手下数字图片(LeCun MINIST),600张随机图片(0-9各60张)作为训练集,600张作为测试集,实验分析偏差-方差的影响,如下图所示:
K近邻、Gaussian核密度函数其偏差、方差变及总误差化趋势基本相同,即随着
因此为缓解偏差-方差窘境,即balanced bias-varance我们需要采取一定的措施。观察上述实验知偏差、方差的大小一般与
Summary
通过上文的分析,我们知道对于期望泛化误差可以分解为偏差的平方、方差、噪声的平方三项之和(在不同的前提条件下有些论会没有偏差这一项)。对于这个问题“我们是否能够在合适的训练样本下,利用如神经网络这类非参数推断(模型未知,学习而得)的方法使得偏差方差同时减小呢?”想必已经有了答案。这也就是偏差-方差窘境的由来。那么我们如何缓解这一矛盾呢?一般的做法是采用AutomaticData Driven的方法(剪枝、正则等等)。此外我们还可以增加样本数目(理论泛化误差的上界与样本数目有关,样本数目越多则泛化误差越小,当样本数目趋于无穷时,误差也将趋于0),以及选择合适的样本(不同的算法对于样本分布存在不同的偏好)缓解偏差-方差窘境(然而这种方法在现实问题中很难被采用)。
Reference
[1] Jerome H. Friedman, Jerome H. Friedman. On Bias, Variance, 0/1—Loss, and the Curse-of-Dimensionality[J]. Data Mining & Knowledge Discovery, 1997, 1(1):55-77.
[2] Geman S, Bienenstock E. Neural networks and the bias/variance dilemma[M]. MIT Press, 1992.
[3] H White. Connectionist nonparametric regression: Multilayer feedforward networks can learn arbitrary mappings[J]. Neural Networks, 1990, 3(5):535-549.
[4] Christopher Bishop. Pattern Recognition and Machine Learning[B]. Springer:2007