Xavier initialization

最新推荐文章于 2022-06-30 19:54:45 发布

过去的是现在

最新推荐文章于 2022-06-30 19:54:45 发布

阅读量7.1k

点赞数 1

Xavier初始化是什么鬼?

在Caffe中，每个卷积或全连接层的参数通过一个零均值与设定方差的正态分布进行初始化，其中方差的值为 $1/n_{in}$ ，其中 $n_{in}$ 该层的输入神经元数目。
这里需要提一下最开始在Glorot和Bengio的论文里他们是建议把方差设为 $2/(n_{in}+n_{out})$ 的，这里 $n_{out}$ 对应就是该网络层的输出神经元数目了。那么问题来了，干嘛Caffe不完全参照论文要做这样的修改呢？

方差公式是怎么来的？

现在假设有一个n维输入向量X和一个单层线性神经网络，它的权重向量是W，X通过网络后的输出是Y。那么Y的方差是多少呢？很明显，

Y = W 1 X 1 + W 2 X 2 + . . . + W n X n

$Y=W_1X_1+W_2X_2+...+W_nX_n$ 对于每个

WiXi $W_iX_i$ ，它对应的方差，

V a r (W i X i) = E (X i) 2 V a r (W i) + E (W i) 2 V a r (X i) + V a r (X i) V a r (W i)

$Var(W_iX_i)=E(X_i)^2Var(W_i)+E(W_i)^2Var(X_i)+Var(X_i)Var(W_i)$ 当输入的X均值为0的时候，输出的方差就是

V a r (W i X i) = V a r (W i) V a r (X i)

$Var(W_iX_i)=Var(W_i)Var(X_i)$ 进一步假设

Wi $W_i$ 和

Xi $X_i$ 是独立同分布的，就可以得到

V a r (Y) = n V a r (W i) V a r (X i)

$Var(Y)=nVar(W_i)Var(X_i)$ 也就是说输出的方差跟输入的方差只是相差了一个倍数

nVar(Wi) $nVar(W_i)$ ，如果我们希望网络层的输入和输出方差是保持不变的话，就要有

n V a r (W i) = 1

$nVar(W_i)=1$ 到这里就可以得到

V a r (W i) = 1 / n i n

$Var(W_i)=1/n_{in}$ 到这里就得到了Caffe里面的Xavier方差初始化公式。
而Bengio在这个基础上考虑了反向传播时输入输出刚好反转，也就是要求

V a r (W i) = 1 / n o u t

$Var(W_i)=1/n_{out}$ 权衡两种情况的选择就是

V a r (W i) = 2 / (n i n + n o u t)

$Var(W_i)=2/(n_{in}+n_{out})$ Caffe只考虑输入数

nin $n_{in}$ 的原因可能是
1. 对于神经网络而言，前向比反向的重要性更大；
2. 从实现上权衡，要得到对下一层网络的输入是很麻烦的。

MSRA初始化

最后顺便提一提微软的小明针对ReLU激活函数提出的一种初始化方法

V a r (W i) = 2 / n i n

$Var(W_i)=2/n_{in}$ 这里的解释很简单，ReLU函数把输出的一半负值都置零了，为了保持输入输出的方差一致，显然需要把原来正数输出的方差变为原来的2倍了。

这篇东西主要参考自这个博客，要是将来传播出了什么偏差，我是不会背锅的。

过去的是现在

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

过去的是现在 CSDN认证博客专家 CSDN认证企业博客

码龄12年

1: 原创

57万+: 周排名

60万+: 总排名

2万+: 访问

: 等级

303: 积分

5: 粉丝

9: 获赞

8: 评论

14: 收藏

私信

关注

热门文章

最新评论

Xavier initialization
立青-Lam: Var(WiXi),nVar(Wi)这二个公式不明白,请解释一下
SSM框架
寸嘉: 谢谢前辈的讲解
Xavier initialization
Luoove: 我是不会背锅的，很皮。
Dense Trajectory
一名CV界的小学生回复 J644607012: 可视化一直没能成功，也不知道问题出在哪里，改到最后出现好多提示“未定义的引用”，现在不知该怎么解决，还请博主指教一下
Dense Trajectory
过去的是现在回复 J644607012: 把对应画circle的一行代码注释掉就可以了

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。