空洞卷积(Dilated convolutions)与感受野的理解

最近在读‘MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS’这篇论文,里面提到了DILATED CONVOLUTIONS,即空洞卷积,下面我就来介绍一下它的基本原理。
Firstly,我们应该知道普通卷积的基本操作过程,如下图所示:
在这里插入图片描述
上图是具体的计算过程,卷积核为单个,我们接下来看普通卷积感受野的理解:
在这里插入图片描述
上图中输入图片的大小为10x10,通过3x3的卷积核运算,得到(10-3+1)x(10-3+1)大小的future maps,在output1中每一个像素点,即图中的红色框所所对应的输入图片的区域大小为3x3,这就是第一次卷积后神经元对应的感受野大小为3x3。
在这里插入图片描述
上图中进行了第二次卷积,output2中的神经元对应上一层的感受野为3x3,即output1中的红色区域,接下来是理解的重点啦,要想得到output2的输出大小,在原始输入图像上要用多大的卷积核进行卷积?看图就得知,为5x5大小的卷积核,得嘞,这就是output2的神经元对应输入图像的感受野大小为5x5,即第一张图的5x5红色区域。再进行更多次的卷积操作,感受野也是类似的理解。
Sendly,我们来看空洞卷积,看图说话:
在这里插入图片描述
上图是dilated convolution等于2的情形,左图为普通卷积,右图为空洞卷积,蓝色的圆即为添加的0。
举例说明:
输入图片的大小为224x224,采用3x3的卷积核,dilated convolution等于2,即在每两个像素点间插入一个0,卷积核变为3+3-1=5大小,即5x5,接下来的卷积操作和普通卷积操作一样,得到220x220大小的输出future maps,每一个神经元对应的上一层的感受野为5x5大小的区域。
输入图片的大小为224x224,dilated convolution等于4时,即在每两个像素点间插入三个0,卷积核变为3+(3-1)x3=9大小,即9x9,接下来的卷积操作和普通卷积操作一样,得到208x208大小的输出future maps,每一个神经元对应的上一层的感受野为17x17大小的区域。
其实上述的感受野大小计算方法可以理解为一种逆运算,y = x - f + 1,y 为输出图片的大小,x 为输入图片的大小,f 为卷积核的大小,当我们知道 y 时,便可以计算 f ,f = x - y + 1。这种方法适用于以上两种卷积的感受野计算,在这里,我没有考虑padding的加入。原理应该类似。
例:
输入图片的大小为224x224,第一次采用3x3的卷积核,dilated convolution等于2,得到220x220大小的输出future maps,每一个神经元对应的上一层的感受野为5x5大小的区域,第二次卷积,得到216x216大小的输出future maps,每一个神经元对应的上一层的感受野为5x5大小的区域,而对应最初的输入图片的感受野大小为f = 224 - 216 +1 = 9,即9x9。

附小福利:https://fomoro.com/projects/project/receptive-field-calculator

### 回答1: 扩张卷积dilated convolutions)是一种卷积神经网络中的操作,它可以在不增加参数数量的情况下增加感受(receptive field),从而提高模型的性能。扩张卷积通过在卷积核中插入空洞(dilation)来实现感受的扩大,这样可以在不增加卷积核大小的情况下增加感受。扩张卷积在图像分割、语音识别等领域中得到了广泛的应用。 ### 回答2: 扩张卷积dilated convolutions)是一种在计算机视觉和图像处理等领域广泛应用的卷积方法。与传统的卷积方法不同,扩张卷积能够通过增加滤波器中间的空隙,对输入信号进行更加密集和丰富的特征提取,从而提高模型的效果和性能。 扩张卷积的实现方法是,在常规卷积滤波器中间插入一些空隙,这些空隙被称为dilation rate或dilation factor,即扩张率或膨胀系数。扩张率默认为1,表示滤波器的每个元素都依次作用于输入信号上,计算出对应的输出特征。而当扩张率大于1时,滤波器中间的空隙就会增加,使得每个元素的作用范围扩大,能够同时捕捉到更远距离的特征。 因此,扩张卷积能够提高模型学习到的感受,加强对输入信号不同尺度和不同特征间关系的理解和表达能力。此外,扩张卷积还能够有效地减少模型卷积层的参数数量和计算负荷,提高模型的可训练性和泛化能力。 总的来说,扩张卷积是一种非常有用的卷积方法,可以应用于多种深度学习任务,包括图像分割、语音识别、自然语言处理等,为模型提供更精准、高效和全面的特征提取支持。 ### 回答3: 扩张卷积Dilated convolutions)是一种卷积神经网络(CNN)中的重要技术,它可以在保持卷积层输出形状不变的情况下增加感受(receptive field),从而更好地处理输入图像中的局部特征。 传统卷积操作通常使用固定大小的滤波器,以缩小图像尺寸和提取特征。然而,这种方法有一个问题,就是当滤波器尺寸变大时,卷积层输出的尺寸会减小,这将导致丢失一些重要的信息,例如一些全局特征。扩张卷积正是为了解决这个问题而应运而生的。 扩张卷积中,使用的滤波器与传统卷积相同,但是在卷积计算时,滤波器中的元素不再相邻,而是跳过某些位置(空洞或dilation),这样能够增加滤波器的有效感受大小,而不影响输出的尺寸。因此,使用扩张卷积可以在保持尺寸不变的情况下使用更大的滤波器,这有助于提取更丰富的特征,使网络能够更好地处理图像。 扩张卷积的一个很好的应用场景是在语义分割任务中。在语义分割中,需要将输入图像的每个像素分配到不同的类别中。为了实现这个任务,需要使用具有大有效感受的滤波器,以识别图像中更广泛的上下文信息。扩张卷积可以帮助实现这个目标,同时不必调整卷积层的输出尺寸,从而提高了卷积神经网络的性能。 总之,扩张卷积是一种增加感受的有效方法,可以提高CNN网络的性能,特别适用于语义分割等视觉任务。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值