多伦多大学Hinton组
http://www.cs.toronto.edu/~rsalakhu/papers/srivastava14a.pdf
一、目的
降低overfitting的风险
二、原理
用多个结构不同,训练样本不同得出的网络来分别预测结果,将这些结果进行加权求和,这个和来作为最终结果。这样能够有效规避过拟合风险。
三、使用的方法
1、使用了带mini-batch的SGD,而每次SGD迭代(只使用一个样本)所训练的网络都使用了dropout对网络结构进行了剪纸。
2、这样一来,每次迭代就是不同的网络结构;同时因为SGD每次样本不尽相同,那么每个网络的训练样本也不一样。
四、illustration
1、dropout核心做法
其中每个节点的剪纸概率为p,自己设定。