Dropout、高斯Dropout、均匀分布Dropout（Uout）

最新推荐文章于 2024-03-09 10:05:45 发布

天明月落

最新推荐文章于 2024-03-09 10:05:45 发布

阅读量2.1k

点赞数

文章标签：深度学习人工智能 python

本文链接：https://blog.csdn.net/q2479036243/article/details/126567293

版权

Dropout可以用于解决过拟合，但是dropout和batchnorm一起使用将会导致性能下降，原因是方差，最基础的论文为https://arxiv.org/pdf/1801.05134.pdf。网上的讲解也都是围绕这篇文章。本文记录构建均匀分布Dropout的相关知识，以作备用。

Dropout原理及实现

Dropout的本质通过在学习过程中随机删除神经元，从而每一次都让不同的模型进行学习。比如，以概率 p=0.6 随机将神经元置0，就相当于在10个神经元选4个神经元输出(4个神经元在工作，另外6神经元置0)。一般取0.5效果最佳，小模型下可以再小一些，如0.3。

代码实现

在pytorch中可以使用nn.Dropout(p=0.5)实现，和普通的nn.Linear等层用法一致。

也可以手动写一个

class Dropout(nn.Module):
    def __init__(self, p=0.5):
        super(Dropout, self).__init__()
        if p <= 0 or p >= 1:
            raise Exception("p value should accomplish 0 < p < 1")
        self.p = p
        self.kp = 1 - p
        
    def forward(self, x):
        if self.training:
            mask = (torch.rand_like(x) < self.kp)
            return x * mask / self.kp
        else:
            return x

注释：p是丢弃概率，kp是保留概率。self.training在model.train()下是True，在eval()下是False。torch.rand_like是生成和x相同尺寸的张量，取值在[0，1)内均匀分布。最后除了kp是为了保证train和test下的期望值一致，详细解释可见15 - Dropout的原理及其在TF/PyTorch/Numpy的源码实现_取个名字真难呐的博客-CSDN博客_numpy实现dropout

高斯Dropout

这是Dropout的一种变形，写它的目的是方便理解Uout

普通Dropout可以理解为服从的是伯努利分布，现在把它换成高斯分布得到的就是高斯dropout，原理详情可参考深度学习-Dropout详解_Tc.小浩的博客-CSDN博客_dropout

代码参考GaussianDropout implementation - #4 by tom - PyTorch Forums

列出了代码的变化过程，讨论的内容也包含了相应的解释，最终的结果如下：

class GaussianDropout(nn.Module):
    def __init__(self, p=0.5):
        super(GaussianDropout, self).__init__()
        if p <= 0 or p >= 1:
            raise Exception("p value should accomplish 0 < p < 1")
        self.p = p
        
    def forward(self, x):
        if self.training:
            stddev = (self.p / (1.0 - self.p))**0.5
            epsilon = torch.randn_like(x) * stddev
            return x * epsilon
        else:
            return x

Uout

原理见上面论文连接里 Change Dropout into a more variance-stable form 小结

代码为自己总结，可能存在问题

class Uout(nn.Module):
    def __init__(self, p=0.1):
        super(Uout, self).__init__()
        self.beta = p
        
    def forward(self, x):
        if self.training:
            epsilon = (torch.rand_like(x) - 0.5) * 2 * self.beta
            epsilon = epsilon + 1
            return x * epsilon
        else:
            return x