【机器学习】经验风险最小化与结构风险最小化

最新推荐文章于 2025-03-27 00:32:13 发布

邓坤元

最新推荐文章于 2025-03-27 00:32:13 发布

阅读量1.5w

点赞数 21

分类专栏：机器学习机器学习进阶之路文章标签：机器学习经验风险最小化结构风险最小化损失函数风险函数

本文链接：https://blog.csdn.net/pxhdky/article/details/83544932

版权

机器学习同时被 2 个专栏收录

29 篇文章

订阅专栏

机器学习进阶之路

26 篇文章

订阅专栏

1. 损失函数和风险函数

损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏。

常用的损失函数有以下几种：

（1）0-1损失函数（0-1 loss function）

$L\left( {Y,f\left( X \right)} \right) = \left\{ {\begin{array}{*{20}{c}} {1,}&{Y \ne f\left( X \right)}\\ {0,}&{Y = f\left( X \right)} \end{array}} \right.$ （1）

（2）平方损失函数（quadratic loss function）

$L\left( {Y,f\left( X \right)} \right) = {\left( {Y - f\left( X \right)} \right)^2}$ （2）

（3）绝对损失函数（absolute loss function）

$L\left( {Y,f\left( X \right)} \right) = \left| {Y - f\left( X \right)} \right|$ （3）

（4）对数损失函数（logarithmic loss function）或对数似然损失函数（log-likelihood loss function）

$L\left( {Y,P\left( {Y\left| X \right.} \right)} \right) = - \log P\left( {Y\left| X \right.} \right)$ （4）

损失函数值越小，模型就越好。由于模型的输入输出 $\left( {X,Y} \right)$ 是随机变量，遵循联合分布 $P\left( {X,Y} \right)$ ，所以损失函数的期望是：

${R_{\exp }}\left( f \right) = {E_p}\left[ {L\left( {Y,f\left( X \right)} \right)} \right] = \int {L\left( {y,f\left( x \right)} \right)} P\left( {x,y} \right)dxdy$ （5）

这是理论上模型 $f\left( X \right)$ 关于联合分布 $P\left( {X,Y} \right)$ 的期望损失，称为期望风险。

然而，联合分布 $P\left( {X,Y} \right)$ 是未知的，期望风险 ${R_{\exp }}\left( f \right)$ 不能直接计算，可以近似为 $f\left( X \right)$ 关于训练数据集的平均损失，也就是经验风险（empirical risk），即：

${R_{emp}}\left( f \right) = \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},f\left( {{x_i}} \right)} \right)}$ （6）

根据大数定律，当样本容量 $N$ 趋于无穷时，经验风险 ${R_{emp}}\left( f \right)$ 趋于期望风险 ${R_{\exp }}\left( f \right)$ 。但是现实中训练样本数目有限，用经验风险来估计期望风险往往并不理想，要对经验风险进行一定的矫正，也就是形成结构风险。

2. 经验风险最小化与结构风险最小化

2.1 经验风险最小化（empirical risk minimization,ERM）

经验风险最小化的策略认为，经验风险最小的模型是最优的模型：

$\mathop {\min }\limits_{f \in F} \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},f\left( {{x_i}} \right)} \right)}$ （7）

当样本容量足够大时，经验风险最小化能保证有很好的学习效果。比如，极大似然估计（就是经验风险最小化的一个例子，当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。

但当样本容量很小时，经验风险最小化容易导致“过拟合”。

2.2 结构风险最小化

结构风险最小化（structural minimization, SRM）是为了防止过拟合提出的策略。结构风险最小化等价于正则化（regularization）。结构风险在经验风险上加上表示模型复杂度的正则化项（regularizer）或罚项（penalty term）。结构风险的定义是：

${R_{srm}}\left( f \right) = \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},f\left( {{x_i}} \right)} \right)} + \lambda J\left( f \right)$ （8）

其中 $J\left( f \right)$ 是模型复杂度的函数， $\lambda \ge 0$ 是系数，用来权衡经验风险和模型复杂度。

结构风险最小化的策略认为结构风险最小的模型是最优模型：

$\mathop {\min }\limits_{f \in F} \left[ {\frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},f\left( {{x_i}} \right)} \right)} + \lambda J\left( f \right)} \right]$ （9）