《动手学深度学习》笔记——应对“过拟合”的方法

最新推荐文章于 2024-04-28 20:57:20 发布

洌泉_就这样吧

最新推荐文章于 2024-04-28 20:57:20 发布

阅读量140

点赞数

分类专栏：深度学习《动手学深度学习》笔记

原文链接：https://tangshusen.me/Dive-into-DL-PyTorch/#/chapter03_DL-basics/3.12_weight-decay

版权

深度学习同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

《动手学深度学习》笔记

6 篇文章 0 订阅

订阅专栏

过拟合现象即模型的训练误差远小于它在测试集上的误差。
虽然增大训练数据集可能会减轻过拟合，但是获取额外的训练数据往往代价高昂。

权重衰减

权重衰减（weight decay）是应对过拟合问题的常用方法之一，为模型损失函数添加惩罚项使学出的模型参数值较小。

权重衰减等价于 L2范数正则化（regularization）。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小，是应对过拟合的常用手段。L2范数正则化在模型原损失函数基础上添加L2范数惩罚项，从而得到训练所需要最小化的函数。L2范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。
L2范数正则化又叫权重衰减。权重衰减通过惩罚绝对值较大的模型参数为需要学习的模型增加了限制，这可能对过拟合有效。实际场景中，我们有时也在惩罚项中添加偏差元素的平方和。
权重衰减可以通过优化器中的weight_decay超参数来指定，可以定义多个优化器实例对不同的模型参数使用不同的迭代方法。

丢弃法（dropout）

深度学习模型常常使用丢弃法（dropout）来应对过拟合问题
丢弃法只在训练模型时使用，目的是让模型不过分依赖任何隐层单元及其参数
丢弃法有一些不同的变体，倒置丢弃法（inverted dropout）是其中一种

当对该隐藏层使用丢弃法时，该层的隐藏单元将有一定概率被丢弃掉
丢弃概率是丢弃法的超参数，丢弃法不改变其输入的期望值
在训练中隐藏层神经元的丢弃是随机的，输出层的计算无法过度依赖任何隐层单元及其参数
丢弃法在训练模型时起到正则化的作用，并可以用来应对过拟合
在测试模型时，我们为了拿到更加确定性的结果，一般不使用丢弃法

洌泉_就这样吧

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《动手学深度学习》笔记——应对“过拟合”的方法

过拟合现象即模型的训练误差远小于它在测试集上的误差。虽然增大训练数据集可能会减轻过拟合，但是获取额外的训练数据往往代价高昂。权重衰减权重衰减（weight decay）是应对过拟合问题的常用方法之一，为模型损失函数添加惩罚项使学出的模型参数值较小。权重衰减等价于 L2范数正则化（regularization）。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小，是应对过拟合的常用手段。L2范数正则化在模型原损失函数基础上添加L2范数惩罚项，从而得到训练所需要最小化的函数。L2范数惩罚项指的是模
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。