深度学习权重初始化

最新推荐文章于 2024-06-24 10:13:57 发布

arduion

最新推荐文章于 2024-06-24 10:13:57 发布

阅读量1k

点赞数 1

分类专栏：深度学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/arduion/article/details/80853196

版权

深度学习专栏收录该内容

0 篇文章 0 订阅

订阅专栏

权重初始化

权重的初始化如果权重一开始很小，信号到达最后也会很小；如果权重一开始很大，信号到达最后也会很大。不合适的权重初始化会使得隐藏层的输入的方差过大,从而在经过激活函数这种非线性层时离中心较远(导数接近0),因此过早地出现梯度消失.如使用均值0,标准差为1的正态分布初始化在隐藏层的方差仍会很大. 不初始化为0的原因是若初始化为0,所有的神经元节点开始做的都是同样的计算,最终同层的每个神经元得到相同的参数.

常见初始化方式：

1.正态初始化如：w = tf.Variable(tf.random_normal(shape, stddev=0.01))，缺点是：
标准差太大，容易梯度消失和梯度爆炸，合适的标准差在深层网络中，容易出现梯度弥散。

梯度弥散：

靠近输出层的hidden layer 梯度大，参数更新快，所以很快就会收敛；而靠近输入层的hidden layer 梯度小，参数更新慢，

几乎就和初始状态一样，随机分布。这种现象就是梯度弥散（vanishing gradient problem）。而在另一种情况中，前面layer

的梯度通过训练变大，而后面layer的梯度指数级增大，这种现象又叫做梯度爆炸(exploding gradient problem)。总的来说，

就是在这个深度网络中，梯度相当不稳定(unstable)。可以通过relu等激活函数替代，可以加上maxout层。

2 Xavier 初始化： Xavier 初始化可以帮助减少梯度弥散问题，使得信号在神经网络中可以传递得更深。是最为常用的神经网络权重初始化方法。

算法根据输入和输出神经元的数量自动决定初始化的范围: 定义参数所在的层的输入维度为n,输出维度为m,那么参数将从均匀分布中采样。【-squart(6/(m+n)),squart(6/(m+n))】

3.

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度学习权重初始化

权重初始化权重的初始化如果权重一开始很小，信号到达最后也会很小；如果权重一开始很大，信号到达最后也会很大。不合适的权重初始化会使得隐藏层的输入的方差过大,从而在经过激活函数这种非线性层时离中心较远(导数接近0),因此过早地出现梯度消失.如使用均值0,标准差为1的正态分布初始化在隐藏层的方差仍会很大. 不初始化为0的原因是若初始化为0,所有的神经元节点开始做的都是同样的计算,最终同...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。