原理
drop path的原理就是:对于一个输入进来的向量 x = ( 0.4 , − 0.2 ) x=(0.4,-0.2) x=(0.4,−0.2)(不妨设),以p的概率随机将 x x x所有元素置为0,,也就是说经过drop path之后,
x=drop path(x)
x只有两种可能:
- x = ( 0.4 , − 0.2 ) x=(0.4,-0.2) x=(0.4,−0.2)
- x = ( 0 , 0 ) x=(0,0) x=(0,0)
可以看到,这和dropout逐元素失活不同,dropout可能产生结果: x = ( 0.4 , 0 ) x=(0.4,0) x=(0.4,0)。因此,除了叫做drop path,我们可以给其取个名字,逐样本失活。
那么为什么会叫作drop path呢,这是因为上面这种思想应用的场景通常是如下:
可以看到,是一个残差网络。drop path想要做到的事情就是,以p的概率将那个绿色正方形的输出变成0,这样的话,相当于只有左边那根黑线构成输出。也就是如下:
x = x + self.drop_path(self.linear(x))
聪明的你应该想到了,drop path意思就是以p的概率将右边那条道路给drop掉。此时,仅剩左边一条路,这条路输入等于输出,相当于什么都没有做。这是什么意思?不就是减小了神经网络的深度吗?相当于是说,我设计神经网络的时候深度设计大一些,但是训练未必好训练,现在这样随机失活一些层,深度变小了,希望能够做到整体训练得更好。
代码
原理讲完了,看看如下drop path的实现代码:
def drop_path(x, drop_prob: float = 0., training: bool = False):
if drop_prob == 0. or not training:
return x
keep_prob = 1 - drop_prob
shape = (x.shape[0],) + (1,) * (x.ndim - 1)
random_tensor = keep_prob + torch.rand(shape, dtype=x.dtype, device=x.device)
random_tensor.floor_()
output = x.div(keep_prob) * random_tensor
return output
class DropPath(nn.Module):
"""
Drop paths (Stochastic Depth) per sample (when applied in main path of residual blocks).
"""
def __init__(self, drop_prob=None):
super(DropPath, self).__init__()
self.drop_prob = drop_prob
def forward(self, x):
return drop_path(x, self.drop_prob, self.training)
然后正向传播中有:
def __init__():
***
self.drop_path=DropPath(0.2)
***
def forward(self,x):
x = x + self.drop_path(self.linear(x))
上面大家应该大多没有什么问题,只有两个知识:
-
现实中我们是批处理的,即有batch_size个 x x x,drop path的做法是:这batch_size个 x x x各自独立地以 p p p概率置为0。
output = x.div(keep_prob) * random_tensor
为什么要div(除以)keep_prob,即 1 − p 1-p 1−p。这个其实不是drop path提出的,而是dropout提出时就这么做了,你平常没有注意而已。不信你看:
import torch
a=torch.rand(2,3,3)
import torch.nn.functional as tnf
tnf.dropout(a,p=0.5)
结果:
你发现没有上面的1.0652是原来的2倍。即x.div(0.5)
,然后再随机失活置为0。
所以为什么drop path要这么实现归结为为什么dropout要这样实现,下面是解释:
假设一个神经元的输出激活值为a,在不使用dropout的情况下,其输出期望值为a,如果使用了dropout,神经元就可能有保留和关闭两种状态,把它看作一个离散型随机变量,它就符合概率论中的0-1分布,其输出激活值的期望变为(1-p)*a+p*0= (1-p)a,此时若要保持期望和不使用dropout时一致,就要除以 (1-p)。
话说回来,这种解释你看看就好,别太当回事卡在心里。