[动手学深度学习PyTorch笔记三]

最新推荐文章于 2024-03-30 11:41:36 发布

VIP文章 weixin_43246989

最新推荐文章于 2024-03-30 11:41:36 发布

阅读量287

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43246989/article/details/104380909

版权

一过拟合、欠拟合及其解决方案

欠拟合（underfitting）：一类是模型无法得到较低的训练误差，我们将这一现象称作
过拟合（overfitting）：模型的训练误差远小于它在测试数据集上的误差，我们称该现象为。
在实践中，我们要尽可能同时应对欠拟合和过拟合。两个主要影响因素：模型复杂度和训练数据集大小。模型复杂度过低会导致欠拟合，过高则导致过拟合，训练数据集过小容易发生过拟合。因此需选取适当的模型复杂度和计算能力范围内可以承受的较大训练数据集。

解决方案

1 权重衰减

权重衰减等价于 $L_2$ 范数正则化（regularization）。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小，是应对过拟合的常用手段。

2 丢弃法

隐藏层单元有一定的概率被丢弃，有正则化的作用，可以应对过拟合。

二梯度消失、梯度爆炸

深度模型有关数值稳定性的典型问题是消失（vanishing）和爆炸（explosion）。
当神经网络的层数较多时，模型的数值稳定性容易变差，梯度的计算也容易出现消失或爆炸。
梯度消失会导致模型训练困难，对参数的优化步长过小，收效甚微，模型收敛十分缓慢。梯度爆炸会导致模型训练困难，对参数的优化步长过大，难以收敛。激活函数使用sigmoid或者tanh容易产生梯度消失。在训练模型时，我们应该采取适当的措施防止梯度消失和梯度爆炸的现象。

系统环境因素

协变量偏移： $P (x)$ 改变， $P (y ∣ x)$ 不变。
标签偏移： $P (y)$ 改变， $P (y ∣ x)$ 不变。
概念偏移： $P (y ∣ x)$ 改变。

三循环神经网络

循环神经网络引入一个隐藏变量 $H$ ，用 $H_t$ 表示 $H$ 在时间步 $t$ 的值。

最低0.47元/天解锁文章

weixin_43246989

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[动手学深度学习PyTorch笔记三]

一过拟合、欠拟合及其解决方案欠拟合（underfitting）：一类是模型无法得到较低的训练误差，我们将这一现象称作过拟合（overfitting）：模型的训练误差远小于它在测试数据集上的误差，我们称该现象为。在实践中，我们要尽可能同时应对欠拟合和过拟合。两个主要影响因素：模型复杂度和训练数据集大小。模型复杂度过低会导致欠拟合，过高则导致过拟合，训练数据集过小容易发生过拟合。因此需选取适...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。