参数随机初始化方法：xavier_init()

最新推荐文章于 2024-02-06 12:11:14 发布

nini_coded

最新推荐文章于 2024-02-06 12:11:14 发布

阅读量1w

点赞数 2

分类专栏：深度学习文章标签： Xavier 初始化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nini_coded/article/details/79302820

版权

深度学习专栏收录该内容

9 篇文章 1 订阅

订阅专栏

初始化方法由Bengio等人在2010年的论文《Understanding the difficulty of training deep feedforward neural networks》中提出。

它为了保证前向传播和反向传播时每一层的方差一致，根据每层的输入个数和输出个数来决定参数随机初始化的分布范围，是一个通过该层的输入和输出参数个数得到的分布范围内的均匀分布。
公式如下：

U [- 6 - \sqrt n i n + n o u t - - - - - - - - \sqrt, 6 - \sqrt n i n + n o u t - - - - - - - - \sqrt]

$U [-\frac{\sqrt{6}}{\sqrt{n_{in}+n_{out}}},\frac{\sqrt{6}}{\sqrt{n_{in}+n_{out}}}]$
其中：

nin n i n $n_{in}$ 和

nout n o u t $n_{out}$ 分别表示该层输入和输出的参数（权重）个数。
具体推导如下：
假设某层激活函数为线性（非线性与之类似），输入输出关系如下：

y = \sum i = 1 n w i x i + b

$y = \sum_{i=1}^{n}{w_i x_i}+b$
定义

D(xi) D ( x i ) $D(x_i)$ 和

D(wi) D ( w i ) $D(w_i)$ 分别为随机变量

xi x i $x_i$ 和

wi w i $w_i$ 的方差，根据方差公式有：

D (w i x i) = E (w i) 2 D (x i) + E (x i) 2 D (w i) + D (w i) D (x i)

$D(w_i x_i) = E(w_i)^2D(x_i)+E(x_i)^2D(w_i)+D(w_i)D(x_i)$
设计网络时，我们通常会用一些tricks使每层的输入和权值的均值为0,，则有：

D (w i x i) = D (w i) D (x i)

$D(w_i x_i) = D(w_i)D(x_i)$
假设输入

xi x i $x_i$ 和权值

wi w i $w_i$ 独立同分布：

D (y) = n D (w i) D (x i)

$D(y) = n D(w_i)D(x_i)$
由于输入和输出方差相同:

D(y)=D(x) D ( y ) = D ( x ) $D(y) = D(x)$ ，所以有：

D (w) = 1 n

$D(w) = \frac{1}{n}$
对于多层网络，正向传播时第 i 层的输出方差

D(yi) D ( y i ) $D(y_i)$ 可用前面各层方差的乘积表示：

D (y i) = D (x i) \prod k = 0 i - 1 n k D (w k)

$D(y_i) = D(x_i)\prod_{k=0}^{i-1}n_k D(w_k)$
其中，

D(xi) D ( x i ) $D(x_i)$ 为第 i 层的输入，

nk n k $n_k$ 和

wk w k $w_k$ 分别为前面第 k 层的参数数量和长度为

nk n k $n_k$ 的权值向量。

反向传播时，与正向传播类似：

D (\partial L \partial w i) = D (\partial L \partial w m) \prod p = i m n p + 1 D (w p)

$D({\frac{\partial L}{\partial w_i}}) = D({\frac{\partial L}{\partial w_m}}) \prod_{p=i}^{m}n_{p+1} D(w_p)$
其中，L 为最高层第 m 层的损失函数。

对于每一层的权值向量 $w_i$ ，正向与反向传播的方差 $D(x_i)$ 相等：

n i D (w i) = 1

$n_i D(w_i) = 1$

n i + 1 D (w i) = 1

$n_{i+1}D(w_i) = 1$
由于通常相邻两层的权重参数的数量不同，因此选择：

D (w i) = 2 n i + n i + 1

$D(w_i) = \frac{2}{n_i+n_{i+1}}$
为了满足在某个关于原点对称的范围内实现均匀分布，所以Xavier的初始化为在如下范围内的均匀分布：

U [- 6 - \sqrt n i n + n o u t - - - - - - - - \sqrt, 6 - \sqrt n i n + n o u t - - - - - - - - \sqrt]

$U [-\frac{\sqrt{6}}{\sqrt{n_{in}+n_{out}}},\frac{\sqrt{6}}{\sqrt{n_{in}+n_{out}}}]$

关注

2
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。