为了讲解论文而做的博客.....
dropout的存在是为了避免training data的过拟合,这是一个非常有deep learning 特色的方法。
首先,我们要知道,过拟合指的是在training data 上结果非常好,几乎是100%拟合,但是一放到testing data就很差。
dropout的做法呢,就是在每次进行training之前,对于每个神经元都随机的去掉p%的参数(p%是自定义,通常是0.5)
如上图,每一层都随机去掉相同比例的参数,结果如下:
随着参数的删除,对于每一个layer来说,一些路径也是不存在的了。
于是,整个过程就会变得很简洁(变瘦)。
每一次训练时都是用的已经dropout的神经元进行training,一个重要的点的每一次update之前,都要进行一次dropout。
<