DL神经网络权值初始化

最新推荐文章于 2022-08-29 11:50:06 发布

NBtingwu

最新推荐文章于 2022-08-29 11:50:06 发布

阅读量513

点赞数

分类专栏：机器学习文章标签：权值神经网络

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

前言

深度学习中参数的初始化也有很多trick，这些trick却对训练结果起到了至关重要的作用，
本文介绍一个权值初始化的策略。

介绍

针对神经网络权值初始化许多的方法，其中最常用的方法是用随机数进行初始化。
用代码表示就是W=randn(D,H)，其中randn从均值为0，标准差为1的单位高斯分布中采样，因此神经节点
在初始化时有一个随机的方向。

这种初始化有一个问题就是，每个神经元节点输出值的方差会随着神经元节点输入样本的数量而增加。下面用公式说明这个问题。

V a r (s) = V a r (\sum i n w i x i) = \sum i n Var (w i x i) = \sum i n [E (w i)] 2 V a r (x i) + [E (x i)] 2 V a r (w i) + V a r (x i) V a r (w i) = \sum i n V a r (x i) V a r (w i) = (n V a r (w)) v a r (x) (1) (2) (3) (4) (5)

其中第3步到第4步我们假设输入值均值为0，即 E[xi]=E[wi]=0E[xi]=E[wi]=0
当然一般而言输入值均值不会为0，例如采样ReLU作为激活函数的话均值恒大于0。
第4到第5步我们假设所有 wi,xiwi,xi是独立同分布的。
每一步的推导都是根据方差相关性质得出。
其中第2步到第3步需要解释一下：

V a r (X Y) = E (X 2 Y 2) - E 2 (X Y) = E (X 2) E (Y 2) - (E (X) E (Y)) 2 = (E 2 (X 2) + V a r (X)) * (E 2 (Y 2) + V a r (Y)) - E 2 (X) E 2 (Y) = E 2 (X) V a r (Y) + E 2 (Y) V a r (X) + V a r (X) V a r (Y) (6) (7) (8) (9)

从上面可以看出，如果我们希望s与x有相同的方差那么w在初始化是应该乘以1/n−−−√

，即W=randn(D,H)/sqrt(n)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。