深度学习（三）：梯度消失与梯度爆炸及其解决办法

最新推荐文章于 2024-04-19 21:06:51 发布

left--bank

最新推荐文章于 2024-04-19 21:06:51 发布

阅读量2.4k

点赞数 1

分类专栏：人工智能深度学习文章标签：神经网络算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42892235/article/details/108051696

版权

在深度学习中梯度消失和梯度爆炸一直是要解决的核心问题，就用这篇文章来总结一下相关的概念。本文分为三部分，第一部分主要直观的介绍深度学习中为什么使用梯度更新，第二部分主要介绍深度学习中梯度消失及爆炸的原因，第三部分对提出梯度消失及爆炸的解决方案。有基础的同鞋可以跳着阅读。

其中，梯度消失爆炸的解决方案主要包括以下几个部分。

预训练加微调- 梯度剪切、权重正则（针对梯度爆炸）
使用不同的激活函数
使用batchnorm
使用残差结构
使用LSTM网络

1.什么是梯度更新，为什么要用它

什么是梯度：是张量运算的倒数。他是导数这一概念向多元函数的推广。多元函数是以张量作为输入的函数。

一般而言在处理复杂任务上，深度网络比浅层的网络具有更好的效果。但是，目前优化神经网络的方法都是基于反向传播的思想，即根据损失函数计算的误差通过梯度反向传播的方式，指导深度网络权值的更新优化。这样做是有一定原因的，首先，深层网络由许多非线性层堆叠而来，每一层非线性层都可以视为是一个非线性函数 (非线性来自于非线性激活函数），因此整个深度网络可以视为是一个复合的非线性多元函数：
在这里插入图片描述
我们最终的目的是希望这个多元函数可以很好的完成输入到输出之间的映射，假设不同的输入，输出的最优解为 $g (x)$
，那么，优化深度网络就是为了寻找到合适的权值，满足

,假设损失函数的数据空间是下图这样的，我们最优的权值就是为了寻找下图中的最小值点，对于这种数学寻找最小值问题，采用梯度下降的方法再适合不过了。因此，对于神经网络这种参数式的方法，使用梯度更新可以用来寻找最优的参数。

最低0.47元/天解锁文章

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
深度学习（三）：梯度消失与梯度爆炸及其解决办法

在深度学习中梯度消失和梯度爆炸一直是要解决的核心问题，就用这篇文章来总结一下相关的概念。本文分为三部分，第一部分主要直观的介绍深度学习中为什么使用梯度更新，第二部分主要介绍深度学习中梯度消失及爆炸的原因，第三部分对提出梯度消失及爆炸的解决方案。有基础的同鞋可以跳着阅读。其中，梯度消失爆炸的解决方案主要包括以下几个部分。预训练加微调- 梯度剪切、权重正则（针对梯度爆炸）使用不同的激活函数使用batchnorm使用残差结构使用LSTM网络1.什么是梯度更新，为什么要用它什么是梯度：是张量运算
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。