第四周--Googlenet-v2

最新推荐文章于 2024-10-19 11:27:13 发布

深耕|愚僧

最新推荐文章于 2024-10-19 11:27:13 发布

阅读量133

点赞数

分类专栏： Cvbaseline 文章标签：神经网络卷积深度学习人工智能机器学习

本文链接：https://blog.csdn.net/moyachi5096/article/details/107245879

版权

Cvbaseline 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1：文字回答：Batch Normalization 层中的加减乘除是什么意思？

答：减均值除以标准差乘以权重加上偏置。
在这里插入图片描述

2：文字回答：Batch Normalization 层中均值和标准差通过什么方式得到？

答：训练时，均值、方差分别是该批次内数据相应维度的均值与方差；
推理时，均值、方差是基于所有批次的期望计算所得。
Standardization：首先对m个x进行 Standardization，得到 zero mean unit variance的分布x。scale and shift：然后再对x^进行scale and shift，缩放并平移到新的分布y，具有新的均值β方差γ。假设BN层有d个输入节点，则x可构成d×m大小的矩阵X，BN层相当于通过行操作将其映射为另一个d×m大小的矩阵Y。
μ和σ为当前行的统计量，不可学习。
γ和β为待学习的scale和shift参数，用于控制yi的方差和均值。
BN层中，xi和xj之间不存在信息交流(i≠j)

3：文字回答：采用Batch Normalization 对神经网络带来怎样的收益？

答：由于深层神经网络在做非线性变换前的激活输入值（X=Wu+b，u是输入）随着神经网络深度的加深或者在训练过程中，其输入数据分布逐渐发生偏移或者变动，使得训练收敛速度变慢，一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近，导致在反向传播时低层神经网络的梯度消失，这是训练深层神经网络收敛越来越慢的本质原因。而BN就是通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布，其实就是把越来越偏的分布强制拉回比较标准的分布，这样使得激活输入值落在非线性函数对输入比较敏感的区域，这样输入的小变化就会导致损失函数较大的变化，意思是这样让梯度变大，避免梯度消失问题产生，而且梯度变大意味着学习收敛速度快，能大大加快训练速度。