机器学习笔记

本文探讨了神经网络训练中常见的问题,包括Loss不下降的原因和梯度爆炸的解决策略。针对Loss不下降,提到了参数设置、模型结构、损失函数选择、激活函数和优化器的影响;对于梯度爆炸,介绍了重新设计网络结构、使用梯度截断、权重正则化以及调整训练参数等方法。
摘要由CSDN通过智能技术生成

常见问题:

对于神经网络Loss不下降问题:

1.参数设置问题

2.模型结构

模型结构过于简单(不够深)容易出现拟合缓慢、拟合率低的问题

3.损失函数选择

如果是分类,应该用交叉熵损失函数,如果是做回归,用mse/mae损失函数

4.激活函数选择

sigmoid、relu、tanh

5.优化器选择

Adam、sgg,注意学习率不应太大

梯度爆炸

在深层网络或循环神经网络中,误差梯度可在更新中累积,变成非常大的梯度,然后导致网络权重的大幅更新,并因此使网络变得不稳定。在极端情况下,权重的值变得非常大,以至于溢出,导致 NaN 值。表现形式包括:

  • 模型无法从训练数据中获得更新(如低损失)。
  • 模型不稳定,导致更新过程中的损失值出现显著变化。
  • 训练过程中,模型损失变成 NaN。

1.重新设计网络结构

  • 在深度神经网络中,梯度爆炸可以通过重新设计层数更少的网络来解决。
  • 使用更小的批尺寸对网络训练也有好处。
  • 在循环神经网络中,训练过程中在更少的先前时间步上进行更新(沿时间的截断反向传播,truncated Backpropagation through 
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值