Dropout,是指在模型单次训练时随机让网络某些隐含层节点的权重不run,不run的那些节点单次不进行计算,但是它的权重保留下来,下次依然有可能跑起来并更新。
数据预处理,比如在训练CNN时,需要对数据及进行预处理,都干了些什么呢,最基本的有两个,均值化为0与方差化为1,目的是尽量去除无用信息增强有价值的信息以提高数据的利用率,也有说法是使得特征标准化。
Batch Normalization (BN),看名字就是批规范化,也就是将某输出结果的各个维度的均值为0,方差为1。这么干一般情况下可以提高训练速度,提高模型精度。权重伸缩不变性有效地提高反向传播的效率,还具有参数正则化的效果,可以使用更高的学习率。数据伸缩不变性可以有效地减少梯度弥散,简化对学习率的选择。