2022年Cs231n PPT笔记-训练CNN

iwill323

已于 2022-09-25 19:19:18 修改

阅读量562

点赞数

分类专栏： CS231n笔记

于 2022-08-21 19:05:42 首次发布

本文链接：https://blog.csdn.net/iwill323/article/details/126449345

版权

权重初始化

随机初始化

Xavier Initialization

Kaiming / MSRA Initialization

Random Search 和 Grid Search

权重初始化

在神经网络的学习中，权重初始值非常重要。很多时候权重初始值的设定关系到神经网络的学习能否成功。

随机初始化

小网络可以，更深的网络会出问题

初始化值比较小

如果初始化数值比较小，比如W = 0.01* np.random.randn(D,H) ，会发生梯度消失。这里说的主要针对sigmoid或tanh函数，输⼊接近于零，反向传播过程中权重的local gradient（其中x这一项等于0）等于0，最后算出来的梯度成为0

并且，激活值集中在 0.5 附近的分布，激活值的分布有所偏向，说明在表现力上会有很大问题。因为如果有多个神经元都输出几乎相同的值，那它们就没有存在的意义了。比如，如果 100 个神经元都输出几乎相同的值，那么也可以由 1 个神经元来表达基本相同的事情。因此，激活值在分布上有所偏向会出现“表现力受限”的问题。

各层的激活值的分布应当有适当的广度，因为通过在各层间传递多样性的数据，神经网络可以进行高效的学习。反过来，如果传递的是有所偏向的数据，就会出现梯度消失或者“表现力受限”的问题，导致学习可能无法顺利进行。

初始化数值比较大

如果初始化数值比较大，比如W = 0.05* np.random.randn(D,H) ，也会发生梯度消失：所有的激活值饱和，local gradient（tanh导数项等于0）等于0，最后算出来的梯度成为0

Xavier Initialization

Xavier 的论文中，为了使各层的激活值呈现出具有相同广度的分布，推导了合适的权重尺度。随机初始化的neuron的output的方差随着input的个数增加而增加，于是要用input个数对权重矩阵进行缩放，使得输入输出的方差不变：如果前一层的节点数为 n，则初始值使用标准差为 1/sqrt(n) 的分布

推导过程

对于一个没有⾮线性的全连接层输出，权重wij都是从同⼀分布中独⽴抽取的。此外，假设该分布具有零均值和⽅差σ2。请注意，这并不意味着分布必须是⾼斯的，只是均值和⽅差需要存在。现在，让我们假设层xj的输⼊也具有零均值和⽅差γ2，并且它们独⽴于wij并且彼此独⽴。在这种情况下，我们可以按如下⽅式计算oi的平均值和⽅差：