第四周--Googlenet-v2

1:文字回答:Batch Normalization 层中的加减乘除是什么意思?

答:减均值除以标准差乘以权重加上偏置。
在这里插入图片描述

2:文字回答:Batch Normalization 层中均值和标准差通过什么方式得到?

答:训练时,均值、方差分别是该批次内数据相应维度的均值与方差;
推理时,均值、方差是基于所有批次的期望计算所得。
Standardization:首先对m个x进行 Standardization,得到 zero mean unit variance的分布x。scale and shift:然后再对x^进行scale and shift,缩放并平移到新的分布y,具有新的均值β方差γ。假设BN层有d个输入节点,则x可构成d×m大小的矩阵X,BN层相当于通过行操作将其映射为另一个d×m大小的矩阵Y。
μ和σ为当前行的统计量,不可学习。
γ和β为待学习的scale和shift参数,用于控制yi的方差和均值。
BN层中,xi和xj之间不存在信息交流(i≠j)

3:文字回答:采用Batch Normalization 对神经网络带来怎样的收益?

答:由于深层神经网络在做非线性变换前的激活输入值(X=Wu+b,u是输入)随着神经网络深度的加深或者在训练过程中,其输入数据分布逐渐发生偏移或者变动,使得训练收敛速度变慢,一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近,导致在反向传播时低层神经网络的梯度消失,这是训练深层神经网络收敛越来越慢的本质原因。而BN就是通过一定的规范化手段,把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布,其实就是把越来越偏的分布强制拉回比较标准的分布,这样使得激活输入值落在非线性函数对输入比较敏感的区域,这样输入的小变化就会导致损失函数较大的变化,意思是这样让梯度变大,避免梯度消失问题产生,而且梯度变大意味着学习收敛速度快,能大大加快训练速度。

4:文字回答:读完该论文,对你的启发点有哪些?

答:借鉴VGG,全面将55卷积替换为两个33卷积堆叠;卷积层的BN中,不仅考虑batch维度,还考虑空间维度,以feature map维度进行求取均值,方差;0均值,1标准差的数据分布可加速网络训练;可以用更大学习率,加速模型收敛;可以不用精心设计权值初始化。

5:文字:本篇论文的学习笔记及总结

答:在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值