深度学习（5）——网络模型参数的初始化策略（Xavier）

最新推荐文章于 2024-07-03 19:02:13 发布

schedule list

最新推荐文章于 2024-07-03 19:02:13 发布

阅读量1.4k

点赞数 3

分类专栏： 14周AI人工智能

本文链接：https://blog.csdn.net/weixin_41761357/article/details/111184168

版权

14周AI人工智能专栏收录该内容

33 篇文章 13 订阅

订阅专栏

模型参数初始化的目的

先来回顾一下CNN的核心流程：
在这里插入图片描述
在fundamental layer和function layer中，上层和下层神经元之间是通过权重连接的（也就是层与层之间的连接线）权重存在于模型的每一层之间，抽象图如下所以：

而模型的更新，很大程度是基于参数的更新。通过loss函数对predict_y和真实标签y进行计算，利用梯度下降对模型进行更新：

在这里插入图片描述
（b的计算公式同理，此处不再赘述。）

梯度下降的过程是循环进行的，那么第一步模型启动的时候初始值应该怎么设置呢？从设计模型的角度来说，我们希望模型收敛的越快越好（这个没什么好解释的，初始值的设置也会影响到模型的收敛速度），其次还希望模型可以收敛到合适的位置（收敛的位置是局部最小值的话显然不是我们想要的结果）。

初始化要求

1.参数初始值不可全0：
首先要明确一点，参数初始值为0不等价于模型不更新，因为梯度下降的计算公式是
在这里插入图片描述
梯度是loss函数决定的，是该点的斜率决定的，而不是参数的取值决定的。想一想sigmoid函数的图像，显然sigmoid函数在X=0点处的导数斜率不是0.
但是！如果所有的参数都为0，那么输入和输出就无关了，所有的参数是同步更新，所有的参数取值相同，相当于一个参数，毫无意义。
2.对称位置的初始值不对称：
对称位置要反传梯度，否则会导致参数的减少
3.绝对值不能太大：
4.绝对值不能太大：
3、4都是为了使模型实现可以快速收敛