（以pytorch为例）路径（深度）的正则化方法的简单理解-drop path

音程

已于 2022-02-11 20:06:56 修改

阅读量3.1k

点赞数 14

分类专栏： Pytorch深入理解与实战机器学习文章标签： pytorch 机器学习深度学习

于 2022-02-11 20:01:12 首次发布

本文链接：https://blog.csdn.net/qq_43391414/article/details/122887143

版权

Pytorch深入理解与实战同时被 2 个专栏收录

73 篇文章

订阅专栏

机器学习

59 篇文章

订阅专栏

文章目录

- - 原理
  - 代码

原理

drop path的原理就是：对于一个输入进来的向量 $x = (0.4, - 0.2)$ （不妨设），以p的概率随机将 $x$ 所有元素置为0，，也就是说经过drop path之后，

x=drop path(x)

x只有两种可能:

$x = (0.4, - 0.2)$
$x = (0, 0)$

可以看到，这和dropout逐元素失活不同，dropout可能产生结果： $x = (0.4, 0)$ 。因此，除了叫做drop path，我们可以给其取个名字，逐样本失活。

那么为什么会叫作drop path呢，这是因为上面这种思想应用的场景通常是如下：
在这里插入图片描述
可以看到，是一个残差网络。drop path想要做到的事情就是，以p的概率将那个绿色正方形的输出变成0，这样的话，相当于只有左边那根黑线构成输出。也就是如下：

x = x + self.drop_path(self.linear(x))

聪明的你应该想到了，drop path意思就是以p的概率将右边那条道路给drop掉。此时，仅剩左边一条路，这条路输入等于输出，相当于什么都没有做。这是什么意思？不就是减小了神经网络的深度吗？相当于是说，我设计神经网络的时候深度设计大一些，但是训练未必好训练，现在这样随机失活一些层，深度变小了，希望能够做到整体训练得更好。

代码

原理讲完了，看看如下drop path的实现代码：

def drop_path(x, drop_prob: float = 0., training: bool = False):
    if drop_prob == 0. or not training:
        return x
    keep_prob = 1 - drop_prob
    shape = (x.shape[0],) + (1,) * (x.ndim - 1)
    random_tensor = keep_prob + torch.rand(shape, dtype=x.dtype, device=x.device)
    random_tensor.floor_() 
    output = x.div(keep_prob) * random_tensor
    return output


class DropPath(nn.Module):
    """
    Drop paths (Stochastic Depth) per sample  (when applied in main path of residual blocks).
    """
    def __init__(self, drop_prob=None):
        super(DropPath, self).__init__()
        self.drop_prob = drop_prob

    def forward(self, x):
        return drop_path(x, self.drop_prob, self.training)

然后正向传播中有：

def __init__():
	***
    self.drop_path=DropPath(0.2)
    ***
def forward(self,x):
	x = x + self.drop_path(self.linear(x))

上面大家应该大多没有什么问题，只有两个知识：

现实中我们是批处理的，即有batch_size个 $x$ ，drop path的做法是：这batch_size个 $x$ 各自独立地以 $p$ 概率置为0。

output = x.div(keep_prob) * random_tensor

为什么要div(除以)keep_prob，即 $1 - p$ 。这个其实不是drop path提出的，而是dropout提出时就这么做了，你平常没有注意而已。不信你看：

import torch
a=torch.rand(2,3,3)

在这里插入图片描述

import torch.nn.functional as tnf
tnf.dropout(a,p=0.5)

结果：
在这里插入图片描述
你发现没有上面的1.0652是原来的2倍。即x.div(0.5)，然后再随机失活置为0。

所以为什么drop path要这么实现归结为为什么dropout要这样实现，下面是解释：

假设一个神经元的输出激活值为a，在不使用dropout的情况下，其输出期望值为a，如果使用了dropout，神经元就可能有保留和关闭两种状态，把它看作一个离散型随机变量，它就符合概率论中的0-1分布，其输出激活值的期望变为(1-p)*a+p*0= (1-p)a，此时若要保持期望和不使用dropout时一致，就要除以 (1-p)。

话说回来，这种解释你看看就好，别太当回事卡在心里。

完结撒花