“期望风险”，“经验风险”与“结构风险”的定义与联系

最新推荐文章于 2023-11-08 00:00:00 发布

wzg2016

最新推荐文章于 2023-11-08 00:00:00 发布

阅读量3.7k

点赞数 6

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Strive_For_Future/article/details/109086798

版权

题记

“经验风险” “期望风险” “结构风险”这几个词是在机器学习中经常碰到的几个词汇，它们分别代表什么含义？它们之间的关系是什么呢？曾经我以为我知道了，今天听课，又得到了一些新的相关知识。所以再汇总总结一下。网上的信息参差不齐，所以还是以比较权威的参考书为纲比较好。以下内容主要参考以下三本参考书：

[1]《机器学习（第一版）》周志华。 132页~133页。6.4节。

[2]《模式识别（第三版）》张学工。第74~75页。4.6.2节。

[3]《统计学习方法（第二版）》李航。第16~19页。1.3.2节。

其中，对于结构风险的定义，在《模式识别》中没有提到，而在《机器学习》与《统计学习方法》中又有所不同。根据个人理解，我更倾向于《机器学习》中的定义。

基础概念：

对于某个样本,其真实的标签为,我们用模型 f(x,w) 来估计, 其中是模型的参数。则：

误差(error)[1]:模型的预测输出与样本的真实标签之间的差异。

训练误差(training error)[1]:模型在训练集上的误差。个人理解，应该适用于单个样本情况和多个样本情况。

泛化误差(generalization error)[1]:模型在新样本上的误差。通常用测试误差作为对泛化误差的近似。

经验风险(empirical risk)：模型在整个训练数据集上的误差的均值。

$R_{emp}(w)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i,w))$

期望风险(expected risk)：模型在所有可能出现的样本（包括训练集，测试集和其它未采集的样本）上的误差的均值。

$R_{exp}(w)=\int L(y,f(x,w))dF(x,y)$

其中， F(x,y) 表示所有可能出现的样本及其标签的联合概率分布。

结构风险(structural risk)：在不同的参考书中有不同的定义。

《机器学习》书中： $R_{stru}=\Omega (f)$ ， $\Omega (f)$ 是一个与模型复杂度相关的量，模型越复杂，结构风险越大。

《统计学习方法》书中： $R_{stru}=R_{emp}(w)+\Omega (f)$

个人倾向于《机器学习》中的定义。

关系：

（1）根据大数定律，当训练样本数目N趋于无穷时，经验风险趋于期望风险。

（2）一般：

期望风险 > 经验风险

期望风险 < 经验风险 + 系数*结构风险 $\Omega (f)$ ，这里结构风险用的《机器学习》中的定义.

即，在有限样本下，期望风险有上界。

（3）结构风险的最小化 $\approx$ 模型参数正则化。

具体[2]：

期望风险的上界：

$R_{exp}(w) \leqslant R_{emp}(w) + \psi (\frac{h}{N})$

其中表示样本数目；表示模型的VC维（VC Dimension）,反映模型的复杂度。

VC维的特性：如果模型的参数 $\begin{Vmatrix} w \end{Vmatrix}\leqslant A$ , 表示包含所有训练样本的最小超球体的半径，表示样本特征的维度，则模型的VC维有上界：

$h\leqslant min(R^2A^2,d)+1$

分析：对于给定的样本集，，，是确定的，所以最小化结构风险，等价于最小化，即最小化 $\begin{Vmatrix} w \end{Vmatrix}$ 。所以，最小化结构风险等价于最小化模型参数的范数 $\begin{Vmatrix} w \end{Vmatrix}$ ，即，模型参数的正则化。

关注

6
点赞
踩
25

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。