机器学习(四)经验风险与结构风险

原创 2017年01月03日 20:32:47

1. 偏差与方差(bias and variance)

      在回归问题中,我们用一个简单的线性模型来拟合样本,称为线性回归,如图1;或者用更复杂,高维的函数来拟合,比如二次函数得到图2,六次函数得到图3.

这里写图片描述

      我们可以看出来, 六次函数完美地拟合了六个点,误差为0.但是,当我们用这样的拟合模型来进行预测的时候,效果反而不好.通过观察我们发现,二次的模型也许能够更好地拟合这些样本分布.虽然1,3图都不能很好地拟合真实分布,但是他们的问题是很不一样的.我们暂且称图1的问题为偏差(bias),图3的问题为方差(variance).

2. 一般误差与经验误差

我们来定义如下几个概念:

一般误差:

      指的是,我们使用拟合的模型,在任意样本下,得到的误差。也就是模型的真实误差,也称一般误差。

经验误差:

      指的是训练样本的误差,也就是上图中拟合函数对于这几个点的误差。因为这些误差是基于训练样本的,也就是基于已知经验的,称为经验误差。



      在机器学习中,我们当然希望拟合的模型能够在更大的集合上有最小的误差。也就是说,机器学习的目标是:最小化一般误差。可惜的是,最小化一般误差是NP难题。 于是一般的解决方法就是转而最小化经验误差(ERM)。现在许多的机器学习方法也都是基于ERM的。比如概率学的 最大似然原则 ,神经网络等等。正如上面三幅图所描述的,第三幅图的经验误差是最小的(=0),但是其效果不见得是最好的。也就是说,用经验误差来代替一般误差貌似不是最优的。

3. ERM(Empirical Risk Minimization)

      下面用数学语言来描述一般误差(General Risk),经验误差(Empirical Risk)的关系。看看用ER来代替GR有多大的可行性。

3.1 ERM合理性

首先是两个引理:

  • 联合概率:A1,Ak表示非独立的随机变量,他们的联合概率有如下性质:

这里写图片描述

  • 切比雪夫不等式:

这里写图片描述

Z1,Z2...Zm 表示m个独立同分布的随机变量他们的均值为:ϕ^=(1/m)ni=1Zi。 而原分布的均值未知。根据大数定理,样本均值收敛于一个以原分布均值为中心的高斯分布,随着m的不断增加,高斯分布的方差减小。得到上述不等式,也就是切比雪夫不等式。语言描述,就是:已知样本的均值与原分布均值的误差存在上限。
接着开始我们的证明

现在有n个拟合函数,记为H={h1,h2,…..hn};假设现在的H表示所有一次函数的集合.

ERM的做法是在这n个中,选择一个经验风险最小的h.

切比雪夫不等式的均值换成经验误差(ER)与一般误差(GR),就得到如下结论:

这里写图片描述

也就是,H中的任意拟合的经验误差都是其一般误差的较好估计,(注意不是最好的一般误差,是任意拟合自己的一般误差).

这个结论直观地来理解就是,训练样本是一般样本的一个子集,满足一般样本的分布. ER存在关于GR的一个上限.

继续来解读这个不等式.

变化不等式,得到:

这里写图片描述,其中 这里写图片描述

K=|H|,也就是拟合函数的VC维.具体什么是VC维,可以进一步去了解,这里不赘述.现在我们简单地理解为拟合函数的维数.

上面证明归纳为:ER与GR的区别存在上限,这个区别随着m的增加而减小.

M也称为样本复杂度.

这个证明的另一种解释就是,想要ERM的误差在一定的范围,训练样本的个数m必须满足一定的大小要求.

上面表明任意拟合函数GR与ER之间的关系;而ERM选择经验风险最小的拟合.继续证明这种选择的正确性.

这里写图片描述

这个公式很重要,其中h^表示根据ERM原则,选择的有最小ER的h.

h*表示H中一般误差最小的h,也就是我们不解决NP难题之外的最好选择.

这里写图片描述

OK,终于证明了.总结一下ERM合理性:

  1. 经验误差存在上限,是其一般误差的比较好的估计,不会超过r

  2. 选择最小经验误差的拟合函数,其与最佳一般误差函数的差异不会超过2r

4. SRM(Structural risk minimization)

      终于,结构风险最小化出现了.(Structural Risk Minimization)结构风险就是综合ERM与置信范围,寻求一个折中的最佳点.如上图的二次拟合函数,应该就是SRM的选择。机器学习的具体运用中,一般不使用训练误差来判断好坏,而是引入一般误差的另一个子集来估计,即测试误差。

通过测试误差和训练误差的比较,还有训练样本的数量我们能够对结构风险做一些简单的猜测。

1.小样本问题:也就是训练样本m很小,而特征维数过大,容易造成过拟合。(可以参照上面的公式)。这时候可以考虑增加样本数量,或减低样本维数等。

2.训练误差很小,测试误差很大。也就是偏差很小,方差很大。考虑过拟合,减小拟合函数VC维等。

3.训练误差,测试误差都很大,考虑欠拟合,增加拟合函数的VC维.

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

机器学习-->期望风险、经验风险与结构风险之间的关系

期望风险 经验风险 结构风险 统计机器学习包括三个部分:1.模型;2.策略;3.算法 其中模型表示的是所要学习的条件概率分布或者决策函数,模型的假设空间包含所有可能的决策函数。我们的目的就是从模型的...

经验风险与结构风险

在机器学习中,我们希望拟合的模型能够在更大的集合上有最小的误差. 也就是说,机器学习的目标是,最小化一般误差. 可惜的是,最小化一般误差是NP难题. 于是一般的解决方法就是转而最小化经验误差(...

经验风险与结构风险

经验风险与结构风险 分类: 机器学习2013-11-02 10:25 305人阅读 评论(0) 收藏 举报 经验风险结构风险ERMSRM 目录(?)[+] ...
  • pi9nc
  • pi9nc
  • 2014年01月25日 12:43
  • 7674

机器学习(六) - - 模型评估和选择①经验误差与过拟合

模型评估和选择(一) 经验误差和过拟合
  • zmdsjtu
  • zmdsjtu
  • 2016年09月29日 12:32
  • 1455

MNIST手写字识别的TensorFlow实现

1. 简介       本文介绍的是MNIST手写字体CNN识别模型的TensorFlow的实现。据本人亲自测试,当迭代训练次数为20000时能在验证集上取得最高的准确率。当迭代训练次数达到28000...

无监督聚类算法该如何评价

学过机器学习的小伙伴应该都很清楚:几乎所有的机器学习理论与实战教材里面都有非常详细的理论化的有监督分类学习算法的评价指标。例如:正确率、召回率、精准率、ROC曲线、AUC曲线。但是几乎没有任何教材上有...

(斯坦福机器学习笔记)之经验风险最小化

经验风险最小化这节课的内容全是算法,最终推导出了一个可供我们定性分析模型复杂度和所需最少训练样本数的关系的结论。 首先定义ϵ̂ (h)\hat{\epsilon}(h)定义为m个样本的平均误差,又叫...

公开课机器学习笔记(16)学习理论一 经验风险最小化ERM

本篇与前面不同,主要内容不是算法,而是机器学习的另一部分内容——学习理论。主要包括偏差/方差(Bias/variance)、经验风险最小化(Empirical Risk Minization,ERM)...

机器学习 之 SVM VC维度、样本数目与经验风险最小化的关系

VC维在有限的训练样本情况下,当样本数 n 固定时,此时学习机器的 VC 维越高学习机器的复杂性越高。VC 维反映了函数集的学习能力,VC 维越大则学习机器越复杂(容量越大)。         所谓的...

机器学习第九课--经验风险最小化、一致收敛

这节课讲的内容是关于学习理论的。老师说,检测机器学习学得是否扎实,可以从是否熟悉这方面的知识来做出相应的检测。我之前听说过VC维,但认为这个知识点太难了,好像跟我要用到的知识没啥关系(当时是个新手,接...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:机器学习(四)经验风险与结构风险
举报原因:
原因补充:

(最多只允许输入30个字)