“期望风险”,“经验风险”与“结构风险”的定义与联系

题记

“经验风险” “期望风险” “结构风险”这几个词是在机器学习中经常碰到的几个词汇,它们分别代表什么含义?它们之间的关系是什么呢? 曾经我以为我知道了,今天听课,又得到了一些新的相关知识。所以再汇总总结一下。网上的信息参差不齐,所以还是以比较权威的参考书为纲比较好。以下内容主要参考以下三本参考书:

[1]《机器学习(第一版)》周志华。 132页~133页。6.4节。

[2]《模式识别(第三版)》张学工。第74~75页。4.6.2节。

[3]《统计学习方法(第二版)》李航。第16~19页。1.3.2节。

其中,对于结构风险的定义,在《模式识别》中没有提到,而在《机器学习》与《统计学习方法》中又有所不同。根据个人理解,我更倾向于《机器学习》中的定义。

基础概念:

对于某个样本x,其真实的标签为y,我们用模型f(x,w)来估计y, 其中w是模型的参数。则:

误差(error)[1]:模型的预测输出与样本的真实标签之间的差异。

训练误差(training error)[1]:模型在训练集上的误差。个人理解,应该适用于单个样本情况和多个样本情况。

泛化误差(generalization error)[1]:模型在新样本上的误差。通常用测试误差作为对泛化误差的近似。


经验风险(empirical risk):模型在整个训练数据集上的误差的均值。

                R_{emp}(w)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i,w))

期望风险(expected risk):模型在所有可能出现的样本(包括训练集,测试集和其它未采集的样本)上的误差的均值。

            R_{exp}(w)=\int L(y,f(x,w))dF(x,y)

        其中,F(x,y)表示所有可能出现的样本及其标签的联合概率分布。

结构风险(structural risk):在不同的参考书中有不同的定义。

       《机器学习》书中:R_{stru}=\Omega (f)\Omega (f)是一个与模型复杂度相关的量,模型越复杂,结构风险越大。

      《统计学习方法》书中:R_{stru}=R_{emp}(w)+\Omega (f)

        个人倾向于《机器学习》中的定义。


关系:

(1) 根据大数定律,当训练样本数目N趋于无穷时,经验风险趋于期望风险。

(2)一般:

           期望风险 > 经验风险

          期望风险 < 经验风险 + 系数*结构风险\Omega (f)   , 这里结构风险用的《机器学习》中的定义.

        即,在有限样本下,期望风险有上界。

(3)结构风险的最小化 \approx 模型参数正则化。

        具体[2]:

期望风险的上界:

                  R_{exp}(w) \leqslant R_{emp}(w) + \psi (\frac{h}{N})

其中N表示样本数目;h表示模型的VC维(VC Dimension),反映模型的复杂度。

VC维h的特性:如果模型的参数\begin{Vmatrix} w \end{Vmatrix}\leqslant A, R表示包含所有训练样本的最小超球体的半径,d表示样本特征的维度,则模型的VC维h有上界:

                 h\leqslant min(R^2A^2,d)+1

分析:对于给定的样本集,RdN是确定的,所以最小化结构风险,等价于最小化A,即最小化\begin{Vmatrix} w \end{Vmatrix}。 所以,最小化结构风险等价于最小化模型参数的范数\begin{Vmatrix} w \end{Vmatrix},即,模型参数的正则化。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值