24.8.28学习心得

kkkkk021106

已于 2024-08-30 21:13:11 修改

阅读量792

点赞数 13

文章标签：深度学习 python 人工智能

于 2024-08-29 15:48:15 首次发布

本文链接：https://blog.csdn.net/m0_64006292/article/details/141641821

版权

丢弃法（Dropout）是一种常用的正则化技术，主要用于防止神经网络中的过拟合。它的基本思想是在训练过程中随机“丢弃”一部分神经元，即将这些神经元的输出置为0。通过这种方式，模型在训练时不能依赖任何一个神经元的输出，从而增加了模型的鲁棒性和泛化能力。

丢弃法的工作原理

随机丢弃神经元：
- 在每次前向传播时，随机选择一部分神经元（通常是隐藏层中的神经元），并将这些神经元的输出置为0。
- 通常选择丢弃的概率 p（也称为 dropout rate 或 dropout 比率），通常取值在 0 到 1 之间，常见的值为 0.5。
缩放因子：
- 在训练时，为了保证期望输出一致，通常会对保留下来的神经元的输出乘以 11−p1−p1。这样做的目的是使得整体的输出期望值不变。
- 在推理（测试）时，通常不使用丢弃法，而是直接将所有神经元的输出乘以 1−p，以保持与训练时的期望一致。

丢弃法的工作原理（kimi）：

前向传播：在每次训练迭代的前向传播阶段，网络正常计算输出。
随机丢弃：在前向传播之后，根据丢弃比例 p，随机选择一些神经元，并将其输出置为零。这意味着这些神经元在当前迭代中对最终的输出没有贡献。
反向传播：在反向传播阶段，只有那些在前向传播中未被丢弃的神经元会接收到梯度，并进行参数更新。
重复过程：在每次训练迭代中重复这个过程，丢弃不同的随机子集的神经元。

丢弃法的应用

在训练阶段：
- 在训练时，通过随机丢弃神经元，使得模型不能完全依赖于任何特定的神经元，从而提高了模型的泛化能力。
- 丢弃法可以看作是在每次训练迭代中都使用一个不同的子网络，这些子网络共享相同的权重。
在推理阶段：
- 在推理（测试）时，通常不使用丢弃法，而是将所有神经元的输出乘以 1−p1−p，以保持与训练时的期望一致。

pytorch代码用法如下：

import torch
import torch.nn as nn

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        # 定义模型层
        self.layer1 = nn.Linear(100, 50)
        self.dropout = nn.Dropout(p=0.5)  # 定义丢弃层
        self.layer2 = nn.Linear(50, 10)

    def forward(self, x):
        x = torch.relu(self.layer1(x))
        x = self.dropout(x)  # 应用丢弃
        x = self.layer2(x)
        return x
# 第一个隐藏层之后使用了非线性激活函数（ReLU），而在输出层之前通常不使用激活函数
#（或者使用特定的激活函数，如 softmax，这取决于具体任务）

model = MyModel()

梯度爆炸（Gradient Explosion）和梯度消失（Vanishing Gradient）是深度学习中常见的两个问题，特别是在训练深层神经网络时。这些问题会影响到模型的学习能力和收敛速度，甚至导致模型无法正常训练。下面我们详细讲解这两种现象及其原因、影响和解决方案。

梯度爆炸（Gradient Explosion）

定义

梯度爆炸是指在反向传播过程中，梯度变得非常大，导致权重更新过大，从而使模型不稳定或发散。

原因

权重初始化不当：
- 如果权重初始化得过大，会导致激活函数的输出也很大，从而使得梯度也非常大。
深层网络：
- 在深层网络中，反向传播过程中梯度会被多次相乘。如果每一层的梯度都大于1，那么在经过多层之后，梯度会指数级增长，最终导致梯度爆炸。
激活函数的选择：
- 某些激活函数（如线性激活函数）可能会导致较大的梯度。

影响

权重更新过大：梯度爆炸会导致权重更新过大，使得模型在训练过程中不稳定，甚至发散。
数值稳定性问题：过大的梯度可能导致数值溢出，导致模型无法继续训练。

解决方案

为什么需要权重初始化：

在神经网络中，如果权重初始化不当（例如全部初始化为0或过小的值），可能会导致梯度消失问题，即梯度在反向传播时变得非常小，导致权重更新几乎停滞。
如果权重初始化过大，可能会导致梯度爆炸问题，即梯度在反向传播时变得非常大，导致权重更新过大，模型训练不稳定。

权重初始化：
- 使用合适的权重初始化方法，如 Xavier 初始化或 He 初始化，可以避免初始权重过大。
- Xavier初始化（Glorot初始化）
  
  目的： Xavier初始化旨在保持网络在各层的输入和输出的方差大致相同，从而避免梯度消失或爆炸。适用于使用 sigmoid 或 tanh 激活函数的网络。
- He初始化适用于使用ReLU（Rectified Linear Unit）或其变体（如Leaky ReLU、Parametric ReLU）作为激活函数的情况。

梯度裁剪：
- 在训练过程中，对梯度进行裁剪（Clipping），即设定一个阈值，如果梯度的范数超过这个阈值，则按比例缩小梯度。
使用 LSTM 或 GRU：
- 对于循环神经网络（RNN），可以使用长短期记忆单元（LSTM）或门控循环单元（GRU），这些结构通过特殊的门机制来控制信息流，从而缓解梯度爆炸问题。
批量归一化（Batch Normalization）：
- 批量归一化可以使得每一层的输入分布更加稳定，从而减少梯度爆炸的可能性。：
- 批量归一化（Batch Normalization，简称 BatchNorm 或 BN）是一种在深度学习中广泛使用的技巧，它通过对每一层的激活值进行标准化，使得每一层的输入分布更加稳定。这有助于加速训练过程，提高模型的稳定性，并减少梯度爆炸和梯度消失问题。
- 批量归一化的实现：

import torch
import torch.nn as nn

# 定义模型
class BatchNormModel(nn.Module):
    def __init__(self):
        super(BatchNormModel, self).__init__()
        self.fc1 = nn.Linear(1, 10)  # 第一个全连接层，输入维度为1，输出维度为10
        self.bn1 = nn.BatchNorm1d(10)  # 批量归一化层
        self.fc2 = nn.Linear(10, 1)  # 第二个全连接层，输入维度为10，输出维度为1

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = self.bn1(x)  # 应用批量归一化
        x = self.fc2(x)
        return x

# 实例化模型
model = BatchNormModel()

梯度消失（Vanishing Gradient）

定义

梯度消失是指在反向传播过程中，梯度变得非常小，导致权重更新几乎为零，从而使模型难以学习。

原因

激活函数的选择：
- 某些激活函数（如 Sigmoid 和 tanh）的导数在某些区域非常小，这会导致梯度在反向传播过程中迅速衰减。
深层网络：
- 在深层网络中，反向传播过程中梯度会被多次相乘。如果每一层的梯度都小于1，那么在经过多层之后，梯度会指数级减小，最终导致梯度消失。
权重初始化不当：
- 如果权重初始化得过小，会导致激活函数的输出接近饱和区，从而使得梯度也非常小。

影响

权重更新不足：梯度消失会导致权重更新不足，使得模型在训练过程中难以学习到有用的特征。
训练速度慢：梯度消失会使得训练速度变慢，甚至无法收敛。

解决方案

激活函数的选择：
- 使用 ReLU（Rectified Linear Unit）作为激活函数。ReLU 的导数在正区间为1，可以避免梯度消失问题。
权重初始化：
- 使用合适的权重初始化方法，如 Xavier 初始化或 He 初始化，可以避免初始权重过小。
残差连接（Residual Connections）：
- 对于卷积神经网络（CNN）或循环神经网络（RNN），可以使用残差连接（ResNet）来缓解梯度消失问题。残差连接通过跳跃连接的方式，使得梯度可以直接传回较浅的层。
批量归一化（Batch Normalization）：
- 批量归一化可以使得每一层的输入分布更加稳定，从而减少梯度消失的可能性。

总结

梯度爆炸

原因：权重初始化不当、深层网络、激活函数选择不当。
影响：权重更新过大、数值稳定性问题。
解决方案：权重初始化、梯度裁剪、使用 LSTM/GRU、批量归一化。

梯度消失

原因：激活函数选择不当、深层网络、权重初始化不当。
影响：权重更新不足、训练速度慢。
解决方案：激活函数选择（如 ReLU）、权重初始化、残差连接、批量归一化。

通过采取适当的措施，可以有效地缓解梯度爆炸和梯度消失问题，从而提高模型的训练效果和稳定性。如果你有任何进一步的问题或需要更详细的解释，请随时提问！

kkkkk021106

关注

13
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
24.8.28学习心得

梯度爆炸是指在反向传播过程中，梯度变得非常大，导致权重更新过大，从而使模型不稳定或发散。梯度消失是指在反向传播过程中，梯度变得非常小，导致权重更新几乎为零，从而使模型难以学习。原因：权重初始化不当、深层网络、激活函数选择不当。影响：权重更新过大、数值稳定性问题。解决方案：权重初始化、梯度裁剪、使用 LSTM/GRU、批量归一化。
复制链接

扫一扫