【深度学习基础】从零开始的炼丹生活06——深度学习中的正则化

最新推荐文章于 2024-03-21 09:41:31 发布

wby1905

最新推荐文章于 2024-03-21 09:41:31 发布

阅读量519

点赞数 1

分类专栏：【深度学习】从零开始的炼丹生活文章标签：神经网络算法深度学习正则化机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wby1905/article/details/104106476

版权

往期回顾：
03——支持向量机以及核方法
 04——从传统机器学习走向深度学习
 05——深度前馈网络、神经网络概述

上一节我们说了神经网络设计的基本组件和过程，下面我们再学习一下正则化策略。(主要参考《深度学习》)

深度学习模型不仅要在训练数据上表现好，还要能在新的输入上泛化很好。因此有许多策略被显式地设计来减少测试误差（可能以增大训练误差为代价）。这些策略被称为正则化。

一、参数范数惩罚

许多正则化方法通过对目标函数 $J$ 添加一个参数范数惩罚 $\Omega(\theta)$ 。限制模型的学习能力。即： $\tilde J(\boldsymbol{\theta;X,y})=J(\boldsymbol{\theta;X,y})+\alpha\Omega(\boldsymbol \theta)$ 其中 $\alpha$ 是超参数，越大对应的正则化惩罚越大。

我们通常只对权重作惩罚而不对偏置惩罚，因为精确拟合偏置所需的数据远少于权重，因此我们不惩罚它也不会造成太大误差。此外，如果正则化偏置参数可能导致明显的欠拟合。

同时，由于神经网络的层数很多，我们一般会在所有层使用相同参数的权重衰减。

1. $L^2$ 参数正则化

通常被称为权重衰减的 $L^2$ 参数范数惩罚，这个策略是 $\Omega(\theta)={1\over 2}\|w\|^2_2$ ,使权重更接近原点（接近其他点也同样有正则效果，且越接近真实值越好，但一般我们不知道真实值，因此通常选择原点）。有些文章也可能将 $L^2$ 称为岭回归或 Tikhonov 正则。
因此目标函数变为：
$\tilde J(\boldsymbol{\theta;X,y})=J(\boldsymbol{\theta;X,y})+{\alpha \over 2}w^Tw$

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【深度学习基础】从零开始的炼丹生活06——深度学习中的正则化

简要地介绍了常见的正则化策略
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。