点积时数值过大为什么会导致梯度消失

最新推荐文章于 2024-09-26 16:43:41 发布

six.学长

最新推荐文章于 2024-09-26 16:43:41 发布

阅读量340

点赞数 12

分类专栏： informer Transformer 深度学习文章标签：机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_51200050/article/details/139747004

版权

深度学习同时被 3 个专栏收录

63 篇文章 1 订阅

订阅专栏

39 篇文章 0 订阅

订阅专栏

15 篇文章 1 订阅

订阅专栏

在深度神经网络中，点积操作（特别是在计算自注意力机制时）的数值过大会导致梯度消失问题。这种情况通常发生在深层网络或包含大量参数的网络中，以下是详细解释：

点积数值过大导致梯度消失的原因

1. 数值过大导致激活函数饱和

在神经网络中，点积操作是非常常见的，例如在全连接层（Dense Layer）或自注意力机制中。点积计算的结果会作为激活函数的输入。如果点积结果数值过大，输入激活函数的值也会很大。

对于常用的激活函数（如sigmoid或tanh），它们在输入值很大或很小时，会进入饱和状态，即其导数趋近于零。

在这里插入图片描述

当输入值过大导致激活函数饱和时，反向传播中的梯度也会因此变得非常小，最终导致梯度消失。

2. 梯度消失的链式反应

在反向传播过程中，梯度通过链式法则逐层传递。当某一层的梯度很小时，传递到前一层的梯度也会相应减小。如果网络层数很多，这种效应会被放大，导致前面的层几乎没有梯度更新，梯度消失问题由此产生。

示例

在这里插入图片描述

解决方法

1. 激活函数的选择

在这里插入图片描述

2. 权重初始化

合理的权重初始化方法可以防止点积结果过大。例如，使用Xavier初始化或He初始化：

在这里插入图片描述

3. 归一化技术

批量归一化（Batch Normalization）可以有效控制每层输入的分布，使其在训练过程中保持稳定，从而缓解梯度消失问题。

总结

点积数值过大导致激活函数饱和，进而导致梯度消失问题。这在深层神经网络中特别明显。通过选择合适的激活函数、合理的权重初始化和使用归一化技术，可以有效缓解梯度消失问题，从而确保神经网络的训练过程顺利进行。

关注

12
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。