数值稳定性、模型初始化和激活函数

最新推荐文章于 2024-09-14 19:18:15 发布

ccdous

最新推荐文章于 2024-09-14 19:18:15 发布

阅读量472

点赞数 5

分类专栏：深度学习文章标签：机器学习算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_58317297/article/details/139997540

版权

深度学习专栏收录该内容

55 篇文章 0 订阅

订阅专栏

一、数值稳定性：神经网络很深的时候数据非常容易不稳定

1、神经网络梯度

h^(t-1)是t-1层的输出，也就是t层的输入，y是需要优化的目标函数，向量关于向量的倒数是一个矩阵。

2、问题：梯度爆炸、梯度消失

（1）梯度爆炸例子：MLP

当使用ReLu作为激活函数

a、值超出值域(infinity) ，对于16位浮点数尤为严重(数值区间6e-5-6e4)
b、对学习率敏感，如果学习率太大->大参数值->更大的梯度，如果学习率太小>训练无进展，我们可能需要在训练过程不断调整学习率

（2）梯度消失

a、梯度值变成0 ，对16位浮点数尤为严重
b、训练没有进展，不管如何选择学习率
c、对于底部层尤为严重，仅仅顶部层训练的较好，无法让神经网络更深

3、总结

（1）当数值过大或者过小时会导致数值问题
（2）常发生在深度模型中，因为其会对n个数累乘

二、模型初始化和激活函数

1、模型初始化权重及选取激活函数让训练更加稳定

2、在上一部分知道梯度消失及梯度爆炸，为使梯度在合理的范围内，有方法

（1）将乘法变为加法

ResNet在很多层的情况下，加入加法，从乘法变成加法；

LSTM是长短时记忆网络，能够有效地解决梯度消失和梯度爆炸的问题（不知道具体的，大概后面学）

（2）归一化、梯度剪裁

归一化，比如将所有梯度归一化为均值为0，方差为1。梯度剪裁，比如大于n的梯度直接变成n，小于m的全部变成m

3、将每一层的输出和梯度都看成随机变量，使每一层权重为均值为0，方差为常数、

4、权重初始化

（1）训练开始的时候更容易有数值不稳定：远离最优解的地方损失函数表面可能很复杂，最优解附近表面会比较平

（2）使用N(0,0.01)来初始可能对小网络没问题，不能保证深度神经网络

（3）在合理值区间里随机初始参数

5、例子：MLP

（1）正向方差推导

Var(x)=E(x^2)-E(x)^2，这里E(x)=0（把E^2变成了Var[]）

最终由于等式可得

（2）反向均值和方差（最后一步不是很清楚，方差等于方差怎么得来的）

6、Xavier初始

关于这里的正态分布。pytorch的normal函数里面传参是标准差，数学上的正态分布写的是方差，这里按normal函数来的。

7、在线性激活函数下，必得激活函数y=x（一般情况下激活函数不使用线性）

反向同理

8、常用激活函数

对sigmoid进行调整，从绿线到蓝线。调整是为了正向和反向的传播，输入和输出的x都是正态分布

8、合理的权重初始化和激活函数的选取可以提高数值稳定性

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

ccdous CSDN认证博客专家 CSDN认证企业博客

码龄3年

79: 原创

107万+: 周排名

2万+: 总排名

4万+: 访问

: 等级

1660: 积分

596: 粉丝

866: 获赞

8: 评论

745: 收藏

私信

关注

热门文章

分类专栏

最新评论

语言模型及数据集
征途黯然.: The explanation of 语言模型及数据集 in this article is vivid. The insights are amazing. I have learned a lot, thanks for sharing your efforts!
锚框及代码
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
二、线性回归
CSDN-Ada助手: 恭喜用户在博客中分享了关于线性回归的知识，阐述得非常清晰深入。希望您能继续坚持创作，为读者带来更多有价值的内容。下一步建议可以考虑加入一些实际案例或者应用场景，让读者更容易理解和运用相关知识。期待您更多精彩的博客内容，加油！
12、函数
普通网友: 阅读这篇博文真是一次愉快的体验！作者的文字真是动人心弦，语言精准而生动。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
一、概念定义
CSDN-Ada助手: 恭喜用户发布了新的博客文章！文章中对概念定义进行了深入探讨，让读者对相关主题有了更清晰的认识。希望用户能继续保持创作的热情和耐心，不断提升自己的写作水平。建议下一篇博客可以围绕实例展开，让读者更容易理解和接受你的观点。期待用户更多精彩的文章！祝创作顺利！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。