深度学习基础知识之正则化

最新推荐文章于 2022-01-18 20:05:41 发布

Bread Sir

最新推荐文章于 2022-01-18 20:05:41 发布

阅读量170

点赞数

分类专栏： Deep Learning Tutorial 文章标签：深度学习正则化

本文链接：https://blog.csdn.net/karry_zzj/article/details/103177662

版权

Deep Learning Tutorial 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

背景知识

1 训练误差与泛化误差

训练误差，顾名思义，就是在训练集上表现出的误差，而后者是通过训练得到的模型在任意一个测试集上表现出的误差的期望，但通常直接通过测试集上的误差即（测试误差）来近似。

假设学习到的模型是 $\hat{f}(X)$ ，则
训练误差 是模型关于训练数据集的平均损失：
$R_{emp}(\hat{f}) = \frac{1}{N}\sum_{i=1}^NL(y_i, \hat{f}(x_i)) , N为训练样本容量$
测试误差 是模型关于测试数据集的平均误差：
$e_{test} = \frac{1}{N'}\sum_{i=1}^{N'} L(y_i, \hat{f}(x_i)) , N'为测试样本容量$

训练误差小不代表泛化误差也小，我们评判一个模型的好坏一般不以训练误差小来评判，主要以测试误差小来评判，因为测试误差小的方法具有更好的预测能力，从而模型的泛化能力要更好。

2 欠拟合和过拟合

模型训练中通常会出现两个问题：

欠拟合：模型的训练误差较高
过拟合：模型的训练误差远小于模型的测试误差

其中欠拟合问题是比较好解决的，比如修改模型，或者增加训练迭代次数，调整学习率等超参数，都可以慢慢训练出较低训练误差的模型，但是过拟合问题是比较难解决的。最简单的解决方法就是增加数据集大小，但是数据集是很昂贵的，所以获取更多数据集不是很简单。

那么，正则化就是解决模型过拟合的方法。

正则化

1、奥卡姆剃刀思想

在同样能够解释已知观测现象的假设中，我们应该挑选“最简单”的那一个。

2、正则化原理

正则化是结构风险最小化策略的实现，若要正则化一个学习函数 $f(x;\theta)$ 的模型，则可以给代价函数添加一个称为正则化项的惩罚。
一般具有如下形式： $min_{c_k}$
$\min_{f \in F}\frac{1}{N}\sum_{i=1}^NL(y_i, f(x_i)) + \lambda J(f)$
，其中第 1 项为 经验风险，第 2 项是正则化项， $\lambda \geq 0$ 为调整两者之间关系的系数。

正则化的作用就是选择经验风险与模型复杂度同时较小的模型。

3、 $L_1$ 正则化

正则化项可以取不同的形式，比如在回归问题中，损失函数就是平方损失。
正则化项为参数向量的 $L_1$ 范数：
$\frac{1}{N}\sum_{i=1}^N(f(x_i; w) - y_i)^2 + \lambda \parallel w \parallel _1$

4、 $L_2$ 正则化

正则化项为参数向量的 $L_2$ 范数：
$\frac{1}{N}\sum_{i=1}^N(f(x_i; w) - y_i)^2 + \frac{\lambda}{2} {\parallel w \parallel}^2$

Bread Sir

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习基础知识之正则化

背景知识1 训练误差与泛化误差训练误差，顾名思义，就是在训练集上表现出的误差，而后者是通过训练得到的模型在任意一个测试集上表现出的误差的期望，但通常直接通过测试集上的误差即（测试误差）来近似。假设学习到的模型是 Y=f^(X)Y = \hat{f}(X)Y=f^(X)，则训练误差是模型关于训练数据集的平均损失：Remp(f^)=1N∑i=1NL(yi,f^(xi)),N为训练样本容量...
复制链接

扫一扫