【python深度学习】梯度爆炸|val loss消失|解决办法

活成自己的样子啊

已于 2022-02-16 16:42:57 修改

阅读量1.6k

点赞数

分类专栏：深度学习文章标签： python 深度学习开发语言

于 2022-02-16 16:35:23 首次发布

本文链接：https://blog.csdn.net/m0_61139217/article/details/122966355

版权

深度学习专栏收录该内容

20 篇文章 5 订阅

订阅专栏

这是在做一个比赛的时候遇到的问题，一次偶然的训练发现val loss在几轮训练之后消失了。

图中是我用matplotlib制作的训练100轮的曲线。

数据增广使用了：

transforms.Resize((300, 300))
transforms.RandomHorizontalFlip()
transforms.ToTensor()
transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])

batch-size为20.

模型使用的是efficientnet-b4.

解决方法：

1.调小batch-size

2.修改模型的激活函数（可以使用relu）

3.修改数据集（也可以修改数据增强）

4.修改损失函数

因为损失函数我选择的是交叉熵损失，所以不做修改，模型也不是我自己搭建的，也没有修改，最后在删除了部分数据增强之后，成功解决了该问题！

但是，最后的val loss变成了0。

这个是因为我的数据集有问题了，因为我的数据集正负样本加起来不到1000张，实际在测试集中的f1-score也不到0.80

这种情况下不建议使用数据增强去增加数据的数量，建议直接修改数据集，是样本多样化，具有广泛性。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

活成自己的样子啊

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
【python深度学习】梯度爆炸|val loss消失|解决办法

【python深度学习】梯度爆炸|val loss消失|解决办法
复制链接

扫一扫

专栏目录

pytorch 13 训练过程中出现loss为nan、inf（梯度爆炸、梯度消失）的分析及解决方案

a486259的博客

12-01

8166

从理论的角度上看，本质是梯度消失与梯度爆炸所导致的。梯度消失是指导数值特别小，导致其连乘项接近无穷小，可能是由输入数据的值域太小（导致权重W的导致特别小）或者是神经网络层输出数据落在在激活函数的饱和区（导致激活函数的导致特别小）;而梯度爆炸是指导数值特别大，导致其连乘项特别大，致使W在更新后超出了值域的表示范围。可能是输入数据没有进行归一化（数据量纲太大，致使W的梯度值极大），只要连乘项的导数一直大于1，就会使得靠近输入层的W更新幅度特别大。连乘项是指链式求导法则中每一层的导数，很明显梯度消失与梯度爆炸都受

Python 深度学习实战：聊天机器人

程序员光剑

10-17

255

近年来，随着人工智能技术的飞速发展，聊天机器人（Chatbot）逐渐走进了大众的视野。从简单的问答系统到如今能够进行多轮对话、情感分析的智能助手，聊天机器人在客服、娱乐、教育等领域展现出了巨大的应用潜力。深度学习作为人工智能领域的核心技术之一，为聊天机器人的发展提供了强大的驱动力。通过深度学习模型，聊天机器人能够从海量数据中学习语言的规律和语义，从而实现更加自然、流畅的对话体验。

参与评论您还未登录，请先登录后发表或查看评论

python 绘制train和val的acc和loss曲线

06-18

import numpy as np import matplotlib.pyplot as plt import pylab as pl from mpl_toolkits.axes_grid1.inset_locator import inset_axes def plt_image(x_input, y_input, title, xlabel, ylabel): plt.plot(x_input, y_input, linewidth=2) plt.title(title) plt.xlabel(xlabel) plt.ylabel(ylabel) plt.show() data1_loss =np.loadtxt("val_loss_list.txt") data2_loss = np.loadtxt("train_loss_list.txt") data3_acc = np.loadtxt("val_acc_list.txt") epoches=range(0,100) plt_image(epoches, data1_loss

【Pytorch梯度爆炸】梯度、loss在反向传播过程中变为nan解决方法

weixin_30793735的博客

04-02

8460

0. 遇到大坑笔者在最近的项目中用到了自定义loss函数，代码一切都准备就绪后，在训练时遇到了梯度爆炸的问题，每次训练几个step后，梯度/loss都会变为nan。一般情况下，梯度变为nan都是出现了log(0), x/0等情况，导致结果变为+inf，也就成了nan。 1. 问题分析笔者需要的loss函数如下： L=1N∑i=0N−1(xi−Γ(xi))2\mathscr{L}=\frac{1...

机器学习-损失函数

Bryan__的专栏

05-06

3696

损失函数（loss function）是用来估量你模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项，通常可以表示成如下式子：其中，前面的均值函数表示的是经验风险函数，L代表的是损失函数，

NNDL 实验七循环神经网络（2）梯度爆炸实验

qq_51698536的博客

11-23

532

再聊聊梯度消失与梯度爆炸

Python学习与数据挖掘

03-31

1746

随着神经网络的层数变多、结构越来越复杂，模型在训练过程中就会遇到梯度消失和梯度爆炸导致模型不能有效收敛。那么你知道该问题是如何解决的吗？ 1 梯度消失与梯度爆炸 神经网络在进行反向传播的过程中，各参数层的梯度计算会涉及到激活函数的导函数取值。具体来说，假设现在有一个三层的神经网络，为输入，为神经网络参数，为激活函数：在对反向传播更新时，根据链式法则得：第一层参数在计算梯度的过程中需要相乘激活函数的导函数，所以当神经网络层数越多时，需要相乘的也越多。那么当时，就会出现梯度爆炸的情况；当接近时，就会出现

【解决方案】pytorch中loss变成了nan | 神经网络输出nan | MSE 梯度爆炸/梯度消失

最新发布

程序员光剑

07-12

362

Python深度学习实践：如何构建你的图像分类器 1. 背景介绍 1.1 问题的由来随着互联网和移动设备的普及，图像数据的产生量呈爆炸性增长。从社交媒体上的照片到监控摄像头捕捉的画面，图像数据无处不在。然而，处理这些海量图像数

深度学习-梯度爆炸原因分析、调试记录与解决方案（loss突然变为nan）

我的博客

05-03

1518

loss突然变为nan，出现了梯度爆炸，进行原因分析、记录了调试的过程与最终解决的方案。

使用Keras处理回归问题——以预测房价为例

qq_35018557的博客

12-18

1211

1.波士顿房价数据集：本次使用的波士顿房价数据集包含506个样本，其中404个训练样本和102个测试样本。每个样本包含13个特征，需要注意的是每个特征都有不同的取值范围，包括0-1、0-100、1-12等不同的取值范围。 2.分步骤实现： 1.加载波士顿房价数据集 2.数据预处理 3.构建网络 4.使用K折验证 5.绘制验证分数 3.全流程代码： import nu...

深度学习 | MATLAB Deep Learning Toolbox输出Loss下降曲线

关注并私信文章链接，获取对应文章源码和数据，机器学习之心的博客。

05-28

3014

深度学习 | MATLAB Deep Learning Toolbox输出Loss下降曲线文章目录深度学习 | MATLAB Deep Learning Toolbox输出Loss下降曲线内容简介通过loss曲线诊断神经网络欠拟合过拟合完美拟合拓展学习总结参考资料致谢内容简介 MATLAB 的深度学习工具箱Deep Learning Toolbox的学习与使用对熟悉MATLAB的用户较为容易，尤其可以使用图形界面直观地看到训练的过程，但相应的GUI中的数值并不能直接导出，本文介绍如何在训练时保存训练误

解决为什么val_loss的值只有一个

weixin_45532899的博客

04-21

534

训练参数的设置steps_per_epoc，validation_steps

YOLOv8验证参数详解（全面详细、重点突出、大白话阐述小白也能看懂）

qq_37553692的博客

05-27

6769

这个参数指定了模型运行的设备，可以是cuda设备（如cuda device=0/1/2/3）或者是cpu。可以是一个标量，表示宽度和高度相等，也可以是一个包含宽度和高度的列表，比如(640, 480)。: 这个参数指定了数据文件的路径，比如coco128.yaml，它是一个配置文件，包含了训练数据集的相关信息，比如图像路径、标签等。这对于一些特定的任务，如目标检测中的多标签预测，可能会很有用。只有当检测结果中物体的置信度高于这个阈值时，它们才会被视为有效的检测结果。这对于后续的结果分析和可视化很有用。

[YOLOv8] 缺陷检测之如何读懂训练结果及评估模型训练的效果（含具体例子）

老狼工作室的博客

12-17

8301

本文主要介绍如何理解YOLOv8生成的训练结果中的每个文件的意义.

深度学习中Loss突然变为0的解决方法

Alden He

02-17

1万+

在深度学习中，在网络模型，优化器，损失函数均正确的情况下，可能在训练过程中会发生loss为nan的情况，这种情况下可能的一种原因是输入数据存在nan的情况，如果在数据量很多的情况下，可以通过以下方法来修正假设我们读取的array为a import numpy as np def read(): arr=np.array([[1,2,3],[4,5,nan]]) whereisnan=np.i...

Total Loss: nan || Val Loss: nan

09-27

3. 如果你的网络是类似于循环神经网络（RNN）的结构，出现NaN的原因可能是梯度爆炸。可以尝试增加梯度截断（gradient clipping）来解决该问题。 4. 数组越界可能会导致计算损失时出现NaN。请确保在计算损失时没有...