机器学习笔记之经验风险与结构风险

6人阅读 评论(0) 收藏 举报
分类:

期望损失(风险函数)

当模型的损失函数是对数损失函数(对数似然损失函数):

L(Y,P(Y|X))=logP(Y|X)

损失函数值越小,模型就越好,由于模型的输入、输出 (X,Y) 是随机变量,遵循联合分布 P(X,Y), 所以损失函数的期望是:

Rexp(f)=Ep[L(Y,f(x))]=×L(y,f(x))P(x,y)dxdy

这是理论上模型 f(x) 关于联合分布 P(X,Y) 的平均意义下的损失,称为风险函数或期望损失

学习的目标就是选择期望风险最小的模型。由于联合分布 P(X,Y) 是未知的,Rexp(f) 不能直接计算。实际上,要是知道了联合分布 P(X,Y),就可以直接从联合分布求出条件概率分布 P(Y|X) ,这样就不需要学习了,直接算那就行了。正因为不知道联合概率分布,所以才需要进行学习,这里就会产生矛盾了,一方面根据期望风险最小学习模型需要用到联合概率,另一方面联合概率分布又是位置的,所以导致了监督学习称为一个病态的问题。

经验风险(经验损失)

既然我们无法直接获得总体的联合概率分布,那么我们可以用样本来对总体的联合概率分布进行估计吧。

给定一个训练数据集:

T={(x1,y1),,(xN,yN)}

模型 f(X) 关于训练集的平均损失称为经验风险(emprical risk) 或经验损失:

Remp(f)=1Ni=1NL(yi,f(xi))

容易知道,上面说的期望风险 Rexp(f) 是模型关于联合分布的期望损失,而经验风险 Remp(f) 是模型关于样本训练集的平均损失。根据大数定律,当样本容量趋近 时,经验风险趋近与期望风向。所以我们可以用经验风险估计期望风险。

这样估计存在的问题?
由于现实中样本集的数量有限,有时候并不能很好的体现总体的所有特征,所以这样的估计常常不理想,要对经验风险进行一定的矫正,于是就引出了监督学习的两个基本策略:经验风险最小化和结构风险最小化

经验风险最小化

在假设空间、损失函数以及训练数据集确定的情况下,经验风险函数 Remp(f)=1NNi=1L(yi,f(xi)) 就可以确定。 经验风险最小化(empirical risk minimization, ERM) 的策略认为,经验风险最小的模型就是最优的模型,那么按照经验风险最小化求最优模型就是求解最优化问题:

minf1Ni=1NL(yi,f(xi))

其中 是假设空间。

当样本容量足够大的时候,经验风险最小化能保证有很好的学习效果。

如何理解当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计?

  • 首先极大似然估计基于条件独立的假设,求某个特定的条件概率的时候是要根据情况累乘各部分的概率的。这时候我们对这个条件概率取对数,那么累乘就变成累加和了,就和上面的公式一致了。

结构风险最小化

当样本容量小的的时候,经验风险最小化的效果未必很好,容易产生过拟合

为了防止过拟合,提出了结构风险最小化的策略。

结构风险最小化(structural risk minimization, SRM) 等价于正则化 (regularization)。 结构风险在经验风险上加上表示模型复杂度的正则化项,在假定空间、损失函数以及训练数据集确定的情况下,结构风险的定义:

Rsrm=1Ni=1NL(yi,f(xi))+λJ(f)

其中 J(f) 为模型的复杂度,是定义在假设空间 上的泛函。模型越复杂,复杂度 J(f) 就会越大;反之,模型越简单,复杂度就小。这意味着 J(f) 表示对模型的惩罚。其中 λ0 是系数,用以权衡经验风险和模型复杂度。结构风险最小需要经验风险和模型复杂度同时小。结构风险小的模型对训练数据以及未知的测试数据有较好的预测。

结构风险最小化的策略认为结构风险最小的模型就是最优的模型,所以求最优模型,就是求解最优化问题:

minf1Ni=1NL(yi,f(xi))+λJ(f)

查看评论

经验风险最小化与结构风险最小化笔记

置信风险与两个量有关,一是样本数量,显然给定的样本数量越大,我们的学习结果越有可能正确,此时置信风险越小;二是分类函数的VC维,显然VC维越大,推广能力越差,置信风险会变大。 VC置信范围(VC c...
  • philosophyatmath
  • philosophyatmath
  • 2016-04-01 17:16:20
  • 5904

机器学习-->期望风险、经验风险与结构风险之间的关系

期望风险 经验风险 结构风险 统计机器学习包括三个部分:1.模型;2.策略;3.算法 其中模型表示的是所要学习的条件概率分布或者决策函数,模型的假设空间包含所有可能的决策函数。我们的目的就是从模型的...
  • liyajuan521
  • liyajuan521
  • 2015-03-23 19:03:03
  • 7702

正则化(经验风险最小化与结构风险最小化)

经验风险最小化,是根据定义的cost函数,来使训练集合的cost(损失)函数的整体最小,一般常见的的损失函数有一下: 当选定了损失函数以后,就可以...
  • qq_36346262
  • qq_36346262
  • 2017-08-16 11:21:47
  • 472

VC维 和经验风险,结构风险

2.2 VC维 2009-06-21 12:37 范明/昝红英/牛常勇译 机械工业出版社 我要评论(0) 字号:T | T 综合评级: 想读(2)  在读(0)  已读(6)  ...
  • pi9nc
  • pi9nc
  • 2013-06-11 17:22:18
  • 5445

机器学习(四)经验风险与结构风险

1. 偏差与方差(bias and variance)      在回归问题中,我们用一个简单的线性模型来拟合样本,称为线性回归,如图1;或者用更复杂,高维的函数来拟合,比如二次函数得到图2,六次函数...
  • u013709270
  • u013709270
  • 2017-01-03 20:32:47
  • 1168

期望风险、经验风险与结构风险之间的关系

在机器学习中,通常会遇到期望风险、经验风险和结构风险这三个概念,一直不知道这三个概念之间的具体区别和联系,今天来梳理一下: 要区分这三个概念,首先要引入一个损失函数的概念。损失函数是期望风险、经...
  • bbbeoy
  • bbbeoy
  • 2017-05-19 12:36:02
  • 1164

经验风险最小化和结构风险最小化

在假设空间、损失函数以及训练集确定的情况下,经验风险函数就可以确定。假设给定一个数据集: 模型f(x)关于训练数据集的平均损失成为经验风险或经验损失: 经验风险是模型关于训练样本集的平均损...
  • zhang_shuai12
  • zhang_shuai12
  • 2016-11-07 11:17:45
  • 3676

结构风险和经验风险

经验风险: 主要是计算目标函数存在的误差,最小经验风险是使得目标函数取得最小化的模型。 结构风险:(既考虑经验风险还考虑置信范围) 结构风险最小化(Structural Risk Min...
  • Touch_Dream
  • Touch_Dream
  • 2017-04-14 11:08:58
  • 664

经验风险与结构风险

在机器学习中,我们希望拟合的模型能够在更大的集合上有最小的误差. 也就是说,机器学习的目标是,最小化一般误差. 可惜的是,最小化一般误差是NP难题. 于是一般的解决方法就是转而最小化经验误差(...
  • ice110956
  • ice110956
  • 2013-11-02 10:25:46
  • 3477
    个人资料
    持之以恒
    等级:
    访问量: 1781
    积分: 385
    排名: 20万+
    文章存档
    最新评论