2022年Cs231n PPT笔记-训练CNN

目录

  

权重初始化

随机初始化

 Xavier Initialization

Kaiming / MSRA Initialization

训练误差和测试误差

Early Stopping

 Model Ensembles

 正则化

正则化的通用思想

Dropout

 解释

Inverted dropout 

数据增强

 其他方法

 使用建议

选择超参数

步骤

 Random Search 和 Grid Search


权重初始化

在神经网络的学习中,权重初始值非常重要。很多时候权重初始值的设定关系到神经网络的学习能否成功。

随机初始化

小网络可以,更深的网络会出问题

初始化值比较小

如果初始化数值比较小,比如W = 0.01* np.random.randn(D,H) ,会发生梯度消失。这里说的主要针对sigmoid或tanh函数,输⼊接近于零,反向传播过程中权重的local gradient(其中x这一项等于0)等于0,最后算出来的梯度成为0

并且,激活值集中在 0.5 附近的分布,激活值的分布有所偏向,说明在表现力上会有很大问题。因为如果有多个神经元都输出几乎相同的值,那它们就没有存在的意义了。比如,如果 100 个神经元都输出几乎相同的值,那么也可以由 1 个神经元来表达基本相同的事情。因此,激活值在分布上有所偏向会出现“表现力受限”的问题。

各层的激活值的分布应当有适当的广度,因为通过在各层间传递多样性的数据,神经网络可以进行高效的学习。反过来,如果传递的是有所偏向的数据,就会出现梯度消失或者“表现力受限”的问题,导致学习可能无法顺利进行。

初始化数值比较大

如果初始化数值比较大,比如W = 0.05* np.random.randn(D,H) ,也会发生梯度消失:所有的激活值饱和,local gradient(tanh导数项等于0)等于0,最后算出来的梯度成为0

Xavier Initialization

Xavier 的论文中,为了使各层的激活值呈现出具有相同广度的分布,推导了合适的权重尺度。随机初始化的neuron的output的方差随着input的个数增加而增加,于是要用input个数对权重矩阵进行缩放,使得输入输出的方差不变:如果前一层的节点数为 n,则初始值使用标准差为 1/sqrt(n) 的分布


推导过程

对于一个没有⾮线性的全连接层输出,权重wij都是从同⼀分布中独⽴抽取的。此外,假设该分布具有零均值和⽅差σ2。请注意,这并不意味着分布必须是⾼斯的,只是均值和⽅差需要存在。现在,让我们假设层xj的输⼊也具有零均值和⽅差γ2,并且它们独⽴于wij并且彼此独⽴。在这种情况下,我们可以按如下⽅式计算oi的平均值和⽅差:

保持方差不变的一种方法是设置𝑛in𝜎2=1。考虑反向传播过程,我们面临着类似的问题,使用与前向传播相同的推断,可以看到,除非𝑛out𝜎2=1, 否则梯度的方差可能会增大,其中𝑛outnout是该层的输出的数量只需满⾜:

 Xavier初始化从均值为零,方差 𝜎2=2/(𝑛in+𝑛out) 的高斯分布中采样权重。 我们也可以利用Xavier的直觉来选择从均匀分布中抽取权重时的方差。 注意均匀分布𝑈(−𝑎,𝑎)的方差为𝑎2/3。 将𝑎2/3代入到𝜎2的条件中,将得到初始化值域:

越是后面的层,图像变得越歪斜,但是呈现了比之前更有广度的分布。因为各层间传递的数据有适当的广度,所以 sigmoid 函数的表现力不受限制,有望进行高效的学习。

Kaiming / MSRA Initialization

上面是拿tanh函数举例,对于Relu函数,ReLU激活函数缓解了梯度消失问题,可以加速收敛。如果前一层的节点数为 n,则初始值使用标准差为 sqrt(2/n) 的分布 。(直观上)可以解释为,因为 ReLU 的负值区域的值为 0,为了使它更有广度,所以需要 2 倍的系数。

 

总结和比较

观察实验结果可知,当std = 0.01时,各层的激活值非常小 4。神经网络上传递的是非常小的值,说明逆向传播时权重的梯度也同样很小。这是很严重的问题,实际上学习基本上没有进展。

接下来是初始值为 Xavier 初始值时

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值