PMLR 2016
标准的dropout在测试阶段没有按照bayesian的思想在指数多个网络上做预测再平均,而是根据dropout的概率scaling weights来近似平均,这主要是基于计算有效性地考虑,但会损失准确率。
本文提出dropout distillation,更好的平均,保持计算有效性,提供更好的准确率。
标准的dropout是在前馈NN提出的,也使用于RNN。
本文讨论前馈NN,对RNN也适用。
经典标准的dropout的移除/保留开关 作用于神经元的输出。
drop-connect 的移除/保留开关 作用于网络连接connections,更细粒度。
本文讨论dropout情况,对drop-connect也适用。
model description
监督学习,前馈网络,
Θ 模型参数
σ={
σ1,...,σn} 门变量,作用在n个节点上
minθEx,y,σ[l(y,fΘ,σ(x)]
empirical risk approximation
minΘ1N∑i=1NEσ[l(yi,fΘ,σ(xi