【目标检测】|空洞卷积aspp

最新推荐文章于 2024-03-13 18:52:04 发布

rrr2

最新推荐文章于 2024-03-13 18:52:04 发布

阅读量2.6k

点赞数 1

分类专栏：目标检测

本文链接：https://blog.csdn.net/qq_35608277/article/details/117918421

版权

目标检测专栏收录该内容

90 篇文章 5 订阅

订阅专栏

空洞卷积（扩张卷积，带孔卷积，atrous convolution）是一种区别于普通卷积的卷积方式，从字面理解，就是卷积层中有洞。

空洞卷积的rate的意思是在普通卷积的基础上，相邻权重之间的间隔(卷积核中参数之间的间隔)为rate-1,普通卷积的rate默认为1，所以空洞卷积的实际大小为k+(k−1)(rate−1)，其中k为原始卷积核大小。标准卷积可以看做空洞卷积的特殊形式。

在这里插入图片描述

eg rate=2 中间插入一（rate-1）个空洞

在3*3卷积核中间填充0，有两种实现方式，第一，卷积核填充0，第二，输入等间隔采样。在这里插入图片描述

两层33普通卷积对应的一个点，感受野为55

两层空洞卷积对应的一个点，感受野为13*13
在这里插入图片描述

优点

（1）扩大感受野：在深度神经网络中为了增加感受野且降低计算量，总要进行降采样(pooling或stride=2的conv)，这样虽然可以增加感受野，但空间分辨率降低了。为了能不丢失分辨率，并仍能扩大感受野，可以使用空洞卷积。这在检测，分割任务中十分有用。一方面感受野大了可以检测分割大目标，另一方面分辨率高了可以精确定位目标。
（2）捕获多尺度上下文信息：空洞卷积有一个参数可以设置dilation rate，具体含义就是在卷积核中填充dilation rate-1个0，因此，当设置不同dilation rate时，感受野就会不一样，也即获取了多尺度信息。多尺度信息在视觉任务中相当重要啊。

缺点

空洞卷积是存在理论问题的，论文中称为gridding，其实就是网格效应/棋盘问题。因为空洞卷积得到的某一层的结果中，邻近的像素是从相互独立的子集中卷积得到的，相互之间缺少依赖。

局部信息丢失：由于空洞卷积的计算方式类似于棋盘格式，某一层得到的卷积结果，来自上一层的独立的集合，没有相互依赖，因此该层的卷积结果之间没有相关性，即局部信息丢失。
远距离获取的信息没有相关性：由于空洞卷积稀疏的采样输入信号，使得远距离卷积得到的信息之间没有相关性，影响分类结果。

我们发现 kernel 并不连续，也就是并不是所有的 pixel 都用来计算了，因此这里将信息看做 checker-board 的方式会损失信息的连续性。这对 pixel-level dense prediction 的任务来说是致命的。在这里插入图片描述

使用HDC的方案解决该问题，不同于采用相同的空洞率的deeplab方案，该方案将一定数量的layer形成一个组，然后每个组使用连续增加的空洞率，其他组重复。如deeplab使用rate=2,

而HDC采用r=1,r=2,r=3三个空洞率组合，这两种方案感受野都是13。但HDC方案可以从更广阔的像素范围获取信息，避免了grid问题。同时该方案也可以通过修改rate任意调整感受野。

ref
https://zhuanlan.zhihu.com/p/50369448

aspp

空洞空间卷积池化金字塔(atrous spatial pyramid pooling (ASPP))对所给定的输入以不同采样率的空洞卷积并行采样，相当于以多个比例捕捉图像的上下文。

#without bn version
class ASPP(nn.Module):
    def __init__(self, in_channel=512, depth=256):
        super(ASPP,self).__init__()
        self.mean = nn.AdaptiveAvgPool2d((1, 1)) #(1,1)means ouput_dim
        self.conv = nn.Conv2d(in_channel, depth, 1, 1)
        self.atrous_block1 = nn.Conv2d(in_channel, depth, 1, 1)
        self.atrous_block6 = nn.Conv2d(in_channel, depth, 3, 1, padding=6, dilation=6)
        self.atrous_block12 = nn.Conv2d(in_channel, depth, 3, 1, padding=12, dilation=12)
        self.atrous_block18 = nn.Conv2d(in_channel, depth, 3, 1, padding=18, dilation=18)
        self.conv_1x1_output = nn.Conv2d(depth * 5, depth, 1, 1)
 
    def forward(self, x):
        size = x.shape[2:]
 
        image_features = self.mean(x)
        image_features = self.conv(image_features)
        image_features = F.upsample(image_features, size=size, mode='bilinear')
 
        atrous_block1 = self.atrous_block1(x)
        atrous_block6 = self.atrous_block6(x)
        atrous_block12 = self.atrous_block12(x)
        atrous_block18 = self.atrous_block18(x)
 
        net = self.conv_1x1_output(torch.cat([image_features, atrous_block1, atrous_block6,
                                              atrous_block12, atrous_block18], dim=1))
        return net

https://blog.csdn.net/Guo_rongxin/article/details/79842895?utm_medium=distribute.pc_relevant_t0.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.control&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.control