数值稳定性和模型初始化

最新推荐文章于 2023-01-11 14:47:27 发布

Clark-dj

最新推荐文章于 2023-01-11 14:47:27 发布

阅读量370

点赞数

分类专栏： # 动手深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dujuancao11/article/details/108443155

版权

动手深度学习专栏收录该内容

38 篇文章 14 订阅

订阅专栏

《动手学深度学习pytorch》部分学习笔记，仅用作自己复习。

数值稳定性和模型初始化

深度模型有关数值稳定性的典型问题是衰减（vanishing）和爆炸（explosion）

衰减和爆炸

随机初始化模型参数

如果将每个隐藏单元的参数都初始化为相等的值，那么在正向传播时每个隐藏单元将根据相同的输⼊计算出相同的值，并传递至输出层。在反向传播中，每个隐藏单元的参数梯度值相等。因此，这些参数在使用基于梯度的优化算法迭代后值依然相等。之后的迭代也是如此。在这种情况下，⽆论隐藏单元有多少，隐藏层本质上只有1个隐藏单元在发挥作用。因此，正如在前面的实验中所做的那样，我们通常将神经网络的模型参数，特别是权重参数，进行随机初始化。

PyTorch的默认随机初始化

随机初始化模型参数的⽅法有很多。例如使⽤ torch.nn.init.normal_() 使模型 net 的权重参数采用正态分布的随机初始化方式。不过，PyTorch中 nn.Module 的模块参数都采取了较为合理理的初始化策略略（不同类型的layer具体采样的哪⼀种初始化方法的可参考源代码），因此一般不不⽤用我们考虑。

Xavier随机初始化

还有⼀种⽐较常⽤的随机初始化方法叫作Xavier随机初始化。假设某全连接层的输入个数为，输出个数为，Xavier随机初始化将使该层中权重参数的每个元素都随机采样于均匀分布

主要考虑到，模型参数初始化后，每层输出的方差不该受该层输入个数影响，且每层梯度的⽅差也不该受该层输出个数影响。

小结

深度模型有关数值稳定性的典型问题是衰减和爆炸。当神经网络的层数较多时，模型的数值稳定性容易变差。
我们通常需要随机初始化神经网络的模型参数，如权重参数。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
数值稳定性和模型初始化

《动手学深度学习pytorch》部分学习笔记，仅用作自己复习。数值稳定性和模型初始化深度模型有关数值稳定性的典型问题是衰减（vanishing）和爆炸（explosion）衰减和爆炸随机初始化模型参数如果将每个隐藏单元的参数都初始化为相等的值，那么在正向传播时每个隐藏单元将根据相同的输⼊计算出相同的值，并传递至输出层。在反向传播中，每个隐藏单元的参数梯度值相等。因此，这些参数在使用基于梯度的优化算法迭代后值依然相等。之后的迭代也是如此。在这种情况下，⽆论隐藏单元有多少，隐藏层本质上只
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Clark-dj 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。