Dropout可以用于解决过拟合,但是dropout和batchnorm一起使用将会导致性能下降,原因是方差,最基础的论文为https://arxiv.org/pdf/1801.05134.pdf。网上的讲解也都是围绕这篇文章。本文记录构建均匀分布Dropout的相关知识,以作备用。
Dropout原理及实现
Dropout的本质通过在学习过程中随机删除神经元,从而每一次都让不同的模型进行学习。比如,以概率 p=0.6 随机将神经元置0,就相当于在10个神经元选4个神经元输出(4个神经元在工作,另外6神经元置0)。一般取0.5效果最佳,小模型下可以再小一些,如0.3。
代码实现
在pytorch中可以使用nn.Dropout(p=0.5)实现,和普通的nn.Linear等层用法一致。
也可以手动写一个
class Dropout(nn.Module):
def __init__(self, p=0.5):
super(Dropout, self).__init__()
if p <= 0 or p >= 1:
raise Exception("p value should accomplish 0 < p < 1")
self.p = p
self.kp = 1 - p
def forward(self, x):
if self.training:
mask = (torch.rand_like(x) < self.kp)
return x * mask / self.kp
else:
return x
注释:p是丢弃概率,kp是保留概率。self.training在model.train()下是True,在eval()下是False。torch.rand_like是生成和x相同尺寸的张量,取值在[0,1)内均匀分布。最后除了kp是为了保证train和test下的期望值一致,详细解释可见15 - Dropout的原理及其在TF/PyTorch/Numpy的源码实现_取个名字真难呐的博客-CSDN博客_numpy实现dropout
高斯Dropout
这是Dropout的一种变形,写它的目的是方便理解Uout
普通Dropout可以理解为服从的是伯努利分布,现在把它换成高斯分布得到的就是高斯dropout,原理详情可参考深度学习-Dropout详解_Tc.小浩的博客-CSDN博客_dropout
代码参考GaussianDropout implementation - #4 by tom - PyTorch Forums
列出了代码的变化过程,讨论的内容也包含了相应的解释,最终的结果如下:
class GaussianDropout(nn.Module):
def __init__(self, p=0.5):
super(GaussianDropout, self).__init__()
if p <= 0 or p >= 1:
raise Exception("p value should accomplish 0 < p < 1")
self.p = p
def forward(self, x):
if self.training:
stddev = (self.p / (1.0 - self.p))**0.5
epsilon = torch.randn_like(x) * stddev
return x * epsilon
else:
return x
Uout
原理见上面论文连接里 Change Dropout into a more variance-stable form 小结
代码为自己总结,可能存在问题
class Uout(nn.Module):
def __init__(self, p=0.1):
super(Uout, self).__init__()
self.beta = p
def forward(self, x):
if self.training:
epsilon = (torch.rand_like(x) - 0.5) * 2 * self.beta
epsilon = epsilon + 1
return x * epsilon
else:
return x