深度学习（Deep Learning）读书思考三：正则化

最新推荐文章于 2022-07-27 10:02:02 发布

下一步

最新推荐文章于 2022-07-27 10:02:02 发布

阅读量6.4k

点赞数 2

分类专栏：读书笔记深度学习 ML 文章标签：深度学习正则化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fangqingan_java/article/details/51816002

版权

概述

正则化是机器学习中非常重要并且非常有效的减少泛华误差的技术，特别是在深度学习模型中，由于其模型参数非常多非常容易产生过拟合。因此研究者也提出很多有效的技术防止过拟合，比较常用的技术包括：

参数添加约束，例如L1、L2范数等

训练集合扩充，例如添加噪声、数据变换等

Dropout

该文主要介绍深度学习中比较常见几类正则化方法以及常用参数选择，并试图解释其原理。

正则化技术

参数惩罚

通过对模型参数添加惩罚参数来限制模型能力，常用的就是在损失函数基础上添加范数约束。

J ˜ (θ;, X, y) = J (θ; X, y) + α Ω (θ)

$\widetilde J(\theta;,X,y)=J(\theta;X,y) + \alpha \Omega(\theta)$

通常情况下，深度学习中只对仿射参数 $w$ 添加约束，对偏置项不加约束。主要原因是偏置项一般需要较少的数据就能精确的拟合。如果添加约束常常会导致欠拟合。

L2正则

参数约束添加L2范数惩罚项，该技术也称之为Weight Decay、岭回归、Tikhonov regularization等。

J ˜ (w; X, y) = J (w; X, y) + 1 2 α | | w | | 2

$\widetilde J(w;X,y)=J(w;X,y) + \frac 12 \alpha||w||^2$
通过最优化技术，例如梯度相关方法可以很快推导出，参数优化公式为

w = (1 - ϵ α) w - ϵ \nabla J (w)

$w=(1-\epsilon \alpha)w-\epsilon \nabla J(w)$
其中

ϵ $\epsilon$ 为学习率，相对于正常的梯度优化公式，对参数乘上一个缩减因子。

假设J是一个二次优化问题时，模型参数可以进一步表示为 $\widetilde w_i=\frac {\lambda_i}{\lambda_i+\alpha}w_i$ ，即相当于在原来的参数上添加了一个控制因子，其中 $\lambda$ 是参数Hessian矩阵的特征值。由此可见
1. 当 $\lambda_i \gt\gt \alpha$ 时，惩罚因子作用比较小。
2. 当 $\lambda_i \lt\lt \alpha$ 时，对应的参数会缩减至0

L1正则

对模型参数添加L1范数约束，即

J ˜ (w; X, y) = J (w; X, y) + α | | w | | 1

$\widetilde J(w;X,y)=J(w;X,y) + \alpha||w||_1$
如果通过梯度方法进行求解时，参数梯度为

\nabla J ˜ (w) = α s i g n (w) + \nabla J (w)

$\nabla \widetilde J(w)=\alpha sign(w)+\nabla J(w)$

特殊情况下，对于二次优化问题，并且假设对应的Hessian矩阵是对角矩阵，可以推导出参数递推公式为 wi=sign(w∗i

最低0.47元/天解锁文章

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
深度学习（Deep Learning）读书思考三：正则化

概述正则化是机器学习中非常重要并且非常有效的减少泛华误差的技术，特别是在深度学习模型中，由于其模型参数非常多非常容易产生过拟合。因此研究者也提出很多有效的技术防止过拟合，比较常用的技术包括：参数添加约束，例如L1、L2范数等训练集合扩充，例如添加噪声、数据变换等 Dropout 该文主要介绍深度学习中比较常见几类正则化方法以及常用参数选择，并试图解释其原理。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。