周志华《Machine Learning》学习拓展知识--经验风险与结构风险

最新推荐文章于 2023-11-08 00:00:00 发布

PeterBishop0

最新推荐文章于 2023-11-08 00:00:00 发布

阅读量311

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

21 篇文章 5 订阅

订阅专栏

在前面几章的笔记中，都出现了“正则化”这个看似神秘的东西，具体包括：（1）线性模型的最小二乘法中出现非满秩或正定矩阵的情形，从而引入正则化解决了求逆矩阵的难题；（2）BP神经网络为了避免过拟合而引入的正则项；（3）“软间隔”支持向量机在优化目标中添加的正则项或惩罚项。下面将主要围绕这三个方面来阐述经验风险与结构风险。

风险函数度量的是平均意义下模型训练的好坏。在模型学习的过程中，对于监督学习，通常使用带有真实标记的数据来学习出模型的参数，使得该模型对于训练数据尽可能地都预测正确。但是模型每一次预测值可能与真实标记相同，也可能不一致，一般我们采用损失函数来度量模型预测错误的程度，常用的损失函数有以下几种：

（引自李航教授的《统计学习方法》）

è¿éåå¾çæè¿°

è¿éåå¾çæè¿°

模型关于训练数据的平均损失称为“经验风险”，经验风险度量的是模型与训练数据的契合程度，即模型的优劣程度。如下所示：

è¿éåå¾çæè¿°

但单纯地优化经验风险容易导致过拟合，因此引入了“结构风险”，结构风险度量的是模型的某些性质，例如模型的复杂度或惩罚项等。如下所示：

è¿éåå¾çæè¿°

其中λ是一个系数，将经验风险与结构风险二者进行折中，这就是上面提到的“正则化”问题，通过引入正则项有效地降低了过拟合的风险，这样监督学习问题就变成了经验风险或结构风险最小的最优化问题。下面将围绕三个实际的例子来进行讨论。

（1）最小二乘法引入正则化
在多元线性回归中，对w进行参数估计时，出现了一个限定条件，即X’X为满秩矩阵或正定矩阵。如下所示：

è¿éåå¾çæè¿°

在现实问题中，由于数据的多样性和不确定性，难免会出现列相关的情形，为了避免这个问题，从而引入了正则化。

引入正则化后，虽然对系数的估计是有偏的，但结果却更加稳定。这一问题又称为“岭回归”，岭回归实质上就是带有二范数惩罚项的最小二乘法。

（2）神经网络引入正则化
由于神经网络模型强大的表示能力，BP神经网络经常遭遇过拟合，解决过拟合策略中的其中一种就是引入正则化，在经验风险后加上一个表示模型复杂程度的惩罚项，从而将优化目标从“经验风险”变为“结构风险”，如下所示：

è¿éåå¾çæè¿°

（3）SVM引入正则化
在“软间隔”支持向量机中，在引入松弛变量后，在优化目标函数后添加了一个惩罚项，使得不满足约束的样本点尽可能少。这便是将“经验风险”转化为“结构风险”，因此软间隔SVM可以理解为最优化+损失最小。

è¿éåå¾çæè¿°

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。