【笔记】动手学深度学习 - 数值稳定性 + 模型初始化和激活函数

最新推荐文章于 2023-05-12 18:08:16 发布

echo_gou

最新推荐文章于 2023-05-12 18:08:16 发布

阅读量285

点赞数

分类专栏： # 动手学深度学习文章标签：深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/echo_gou/article/details/120017996

版权

动手学深度学习专栏收录该内容

17 篇文章 41 订阅

订阅专栏

数值稳定性

分为梯度爆炸和梯度消失两类，如果网络的层数比较多，就有可能出现梯度爆炸或者梯度消失。

生物神经元似乎是用 Sigmoid（S 型）激活函数活动的，因此人们在很长一段时间内坚持 Sigmoid 函数。但事实证明，Relu 激活函数通常在 ANN 工作得更好。这是生物研究误导的例子之一。当神经网络有很多层，每个隐藏层都使用Sigmoid函数作为激励函数时，很容易引起梯度消失的问题

因为sigmoid有一个缺点：当x较大或较小时，导数接近0；并且Sigmoid函数导数的最大值是0.25，都是小于1的值。而我们初始化的网络权值通常都小于1，因此，当层数增多时，小于0的值不断相乘，最后就导致梯度消失的情况出现。同理，梯度爆炸的问题也就很明显了，就是当权值过大时，导致，最后大于1的值不断相乘，就会产生梯度爆炸。

梯度爆炸的问题：

可能最后计算出来的梯度的值太大从而超过了值域（对应16位浮点最为严重）

对于学习率敏感：

如果学习率太大，即有一个较大的参数，从而使得梯度非常大。

如果降低学习率，就有可能导致训练效果不明显。

所以我们需要在训练的时候随时调整学习率。

梯度消失的问题：

多次之后可能梯度值直接变为0

不管如何选择学习率训练都没有进展

只能在很浅的网络部分有作用，仅仅只是在顶部层训练的很好，无法使得神经网络更深。

让训练更加稳定（梯度不要太大或者太小）：让梯度在一个合理范围内。例如[1e-6,1e3]

让乘法变成加法（ResNet，LSTM）

梯度归一化，或者梯度剪裁。

模型初始化和激活函数

参考：

https://blog.csdn.net/junjun150013652/article/details/81274958

https://www.jianshu.com/p/3f35e555d5ba

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【笔记】动手学深度学习 - 数值稳定性 + 模型初始化和激活函数

数值稳定性其中t为层。为t-1层的输出如果层数比较多，就有可能出现梯度爆炸或者梯度消失。生物神经元似乎是用 Sigmoid（S 型）激活函数活动的，因此研究人员在很长一段时间内坚持 Sigmoid 函数。但事实证明，Relu 激活函数通常在 ANN 工作得更好。这是生物研究误导的例子之一。当神经网络有很多层，每个隐藏层都使用Sigmoid函数作为激励函数时，很容易引起梯度消失的问题因为sigmoid有一个缺点：当x较大或较小时，导数接近0；并且Sigmoid函数导...
复制链接

扫一扫

专栏目录

echo_gou CSDN认证博客专家 CSDN认证企业博客

码龄8年

112: 原创

7万+: 周排名

74万+: 总排名

13万+: 访问

: 等级

1267: 积分

1305: 粉丝

151: 获赞

35: 评论

548: 收藏

私信

关注

热门文章

分类专栏

数学 7篇
机器人
ROS 12篇
slam 9篇
Linux 8篇
cmake 3篇
论文
深度学习
动手学深度学习 17篇
吴恩达深度学习 1篇
OpenCV 2篇
pytorch学习文档 12篇
python知识 16篇
报错 2篇
人工智能 1篇
操作系统 1篇
C++ 7篇
算法 7篇

最新评论

ubuntu18.04的PCL安装和配置
快乐的Frank: 为什么我按照操作来，会出现红色方块，而不是这个图形
Ubuntu使用ssh连接两个主机
高原葫芦: 两台主机都需要有ssh吗，我目标电脑虚拟机里下了ssh，本机电脑上面都没下可以吗
torch.optim.SGD()
misakaharuhi: 自己写sgd函数，或者在传入前记录一次参数值，传入后再跟之前的减，差值就是梯度了
【笔记】动手学深度学习 - 锚框
ManyoDream: 帮了大忙，上课老师都不讲这个r是什么定义
ubuntu18.04安装运行A-LOAM
echo_gou: 首先topic要一致，然后雷达的数据也要转成代码中想要的数据，比如说legoloam接收的激光雷达数据是velodyne格式的，我的雷达是rslidar的，中间应该就需要转一下。应该是这样的。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。