标准化
也叫做归一化,一般是将数据映射到指定范围,用于去除不同维度数据的量纲以及量纲单位。
可以让机器学习模型看到不同样本之间更加相似。
常见的数据标准化形式:标准化(均值为0,方差为1)和归一化(取值在0-1之间)。
批标准化(Batch Normalization)
和普通数据标准化类似。
不仅在数据输入时进行标准化,而且在每次变换后都考虑数据标准化。
主要解决问题:梯度消失,梯度爆炸。
批标准化的好处:
- 具有正则化的效果
- 提高模型的泛化能力
- 允许更高的学习速率从而加速收敛
- 批标准化有助于梯度传播,因此允许更深的网络。对于有些特别深的网络,只有包含多个BatchNormalization层才能进行训练。
批标准化的实现过程【不太理解,留个坑】
- 求每一个训练批次数据的均值
- 求每一个训练批次数据的方差
- 数据进行标准化
- 训练参数γ,β
- 输出y通过γ和β线性变换的到原来的数值
在训练的正向传播中,不会改变当前输出,只记录下γ和β。
在反向传播的时候,根据求得的γ与β通过链式求导方式,求出学习速率以至改变权值。
感觉有点像正态分布的标准化处理。
批标准化的预测过程
预测阶段的使用的均值和方差,是来自训练集的。训练时会记录下每个batch的均值、方差,在预测时要求整个训练样本的均值、方差的期望值,作为预测时进行BN的均值和方差。
批标准化的使用位置
training:Python布尔值,指示图层应在训练模式还是在推理模式下。
training=True 该图层将使用当前批输入的均值、方差对输入进行标准化。
training=False 该层将使用在训练期间学习的移动统计数据的均值、方差来标准化输入。
#本代码基于tensorflow2.0
#只写一段举个例子
model.add(tf.keras.layers.Dense(256))
model.add(tf.keras.layers.BatchNormalization())
model.add(tf.keras.layers.Activation('relu'))