Xavier

最新推荐文章于 2024-04-21 21:45:36 发布

zjjszj

最新推荐文章于 2024-04-21 21:45:36 发布

阅读量760

点赞数

分类专栏：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZJpingfanzhilu/article/details/106356492

版权

论文阅读专栏收录该内容

10 篇文章 0 订阅

订阅专栏

正确的权重初始化有利于网络收敛，权重初始化的目的是防止激活值饱导致梯度不能传播。两种权重初始化方式：Xavier和hekaiming。本文介绍Xavier，论文名：Understanding the difficulty of training deep feedforward neural 。

1 Xavier概述

Xavier初始化是2010年由Xavier提出来的。这篇文章假设条件比较多，模型结构为简单的5层全连阶层，主要用于初始化全连接层，假设激活函数有如下性质：

当激活函数是线性激活函数。
满足 $f^{'} (0) = 1$ 。
激活函数关于原点对称，这样可以使均值为0.

论文首先使用标准的初始化方法 $W_{i,j}$ ~ $U[-\frac{1}{\sqrt n},\frac{1}{\sqrt n}]$ ，使用tanh激活函数，观察激活值（图1.1）、反向梯度（图1.2）和对权重的梯度图。
在这里插入图片描述

图1.1 激活值图：上图是标准初始化，下图是Xavier初始化

在这里插入图片描述

图1.2 反向梯度值图：上图是标准初始化，下图是Xavier初始化

2 Xavier推导

2.1 前向传播

保证每层激活值的方差相等就可以了。推导过程：
设 $z^i=w^i*h^{i-1}$ 、 $h^i=f(z^i)$ ，注意本文的公式与论文中的不同。则根据bp推导：
在这里插入图片描述

根据 $Var(h^i_l)=Var(h^{i+1}_l)$ 可得：

2.2 反向传播

保证反向传播的梯度（损失函数对激活函数的输入值的求导）的方差相等就可以了。
在这里插入图片描述
根据 $Var(\frac{\partial{Cost}}{\partial z^i})=Var(\frac{\partial{Cost}}{\partial z^{i+1}})$ ，可得：

根据前向传播和反向传播，取一个中间值：

在这里插入图片描述
可得：

$Var(W)=\frac{1}{n}$
除此之外还可以求得（并未参与其他计算）：

3 缺点

对激活函数限制太多。
只能用于几层的神经网络（论文中为5层）。

注：参考文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

zjjszj CSDN认证博客专家 CSDN认证企业博客

码龄9年

31: 原创

21万+: 周排名

139万+: 总排名

1万+: 访问

: 等级

364: 积分

2: 粉丝

7: 获赞

2: 评论

24: 收藏

私信

关注

热门文章

分类专栏

NLP 2篇
论文阅读 10篇
随笔 5篇
图像分割 3篇
person search 3篇
generative model 1篇
show CNN 4篇
知识点
前端 1篇
c++原理 1篇
.net 1篇
错误日志 1篇

最新评论

CAM系列
zjjszj: α代表特征图每个通道的导数均值。如果特征图的shape为（w,h,channel）那么α的shape为（1，channel），ij表示像素点的坐标，c表示正确的类别，k应该表示的是通道把，太久了不太记得了
CAM系列
凯旋16668: 您好博主，α，ij，ck代表什么意思那，怎么理解这个值那

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。