1、梯度消失和梯度爆炸问题
(1) 初始化权重使用Xavier初始化和h初始化
(2)激活函数调整
ELU > leaky ReLU(及其变体)> ReLU > tanh > sigmoid
(3) 训练集小批量标准化,在测试时,没有小批量计算经验均值和标准差,所以您只需使用整个训练集的均值和标准
差。
是整个小批量B的经验均值,是经验性的标准差,
也是来评估整个小批量的。
是小批量中的实例数量。
是以为零中心和标准化的输入。
是层的缩放参数。
是层的移动参数(偏移量),
是一个很小的数字,以避免被零除(通常为 10 ^ -3 )。 这被称为平滑项(拉布拉斯平滑,Laplace Smoothing)。
是BN操作的输出:它是输入的缩放和移位版本。
248page
2、梯度裁剪,一般使用批量标准化