drop out
每次迭代时,都随机将各层的A失活
在全连接层较为常用,卷积神经网络中使用drop out是对某几个channel失活。
---------------------------
为了期望不变,消除随机性。
方案一(推荐使用)inverted drop out
训练过程失活后,除以失活概率
测试不需要做改变
测试过程由于部署在端设备上,需要计算量小
-----------------------
方案二(不推荐使用)
训练过程只失活
测试过程乘以失活概率
--------------------
drop out起作用的原因:
(1)避免特征依赖
(2)相当于集成学习
-------------------------------------------------------------------------------------------------------------------
drop out和batch norm都是由于训练过程随机性(预测过程消除随机性)具有正则化的作用,有时候仅仅使用batch norm即可。
---------------------------------------------------------------------------------------------------------------
data augmentation
------------------------------------------------------
drop connect 对权重参数随机失活
--------------
stochastic depth 对层随机失活 (how crazy)