深度学习专题交流（第09~10次课）：梯度不稳定原因及解决方法

吴智深

已于 2022-09-16 22:37:59 修改

阅读量889

点赞数

分类专栏：数据分析课程交流文章标签：深度学习人工智能机器学习

于 2022-09-16 22:14:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/deepbodhi/article/details/126898105

版权

数据分析课程交流专栏收录该内容

16 篇文章

订阅专栏

这篇博客探讨了导致深度神经网络（DNN）训练中梯度不稳定的问题，如梯度爆炸和梯度消失，并介绍了相应解决方案，包括参数初始化、使用非饱和激活函数、采用交叉熵损失函数、批量归一化等技术。此外，还提到了其他优化方法，如无监督预训练、超参数调试、改进的梯度下降算法和学习率衰减。下一部分将介绍卷积深度神经网络在图像处理中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

可点击该链接浏览在线幻灯片：http://deepbodhi.club/static/1.html

本次课主要分析了导致DNN训练困难的梯度不稳定问题，并介绍了解决这类问题的几种方法。包括：

参数初始化技术（梯度爆炸）
用非饱和激活函数替代饱和激活函数（梯度弥散）
用交叉熵损失函数替代MSE损失函数（梯度消失）
批量归一化技术（内部协变量偏移）

当然，除了这些方法，还有很多优化DNN的方法，包括利用无监督逐层预训练进行初始化的技术、超参数调试技术、改进的梯度下降算法（动量梯度下降、Adam等）、学习率衰减等。对DNN优化感兴趣的可以进一步深入研究。下一讲将介绍在图像处理中更常用的卷积深度神经网络。
请添加图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。