狗都能看懂的可变形卷积详解

最新推荐文章于 2024-10-20 20:54:47 发布

热血厨师长

最新推荐文章于 2024-10-20 20:54:47 发布

阅读量997

点赞数 31

分类专栏：深度学习图像分类文章标签：人工智能深度学习算法

本文链接：https://blog.csdn.net/weixin_42392454/article/details/141434017

版权

深度学习同时被 2 个专栏收录

22 篇文章

订阅专栏

图像分类

11 篇文章

订阅专栏

Deformable Convolution Networks

论文地址：https://arxiv.org/pdf/1703.06211
官方源码：https://github.com/msracver/Deformable-ConvNets/tree/master

Deformable Convolution

conv
文章提出了可变形卷积和可变形ROI采样。原理是一样的，这里先讲解一下可变形卷积，传统的卷积如上图a所示吗，采样点是固定的9个位置，bcd是对应的可变形卷积，b是比较常见的状态，9个采样点位置随机。cd是可变形卷积比较特殊的情形。

这么做有什么好处呢？如上图所示，左边是普通卷积，卷积位置固定，模型关注的位置被限定成一个方形。右边是可变形卷积，由于偏移量是一个可学习参数，模型关注的形状可以是任意外形。

可变形卷积是怎么做的呢？从下图可以看到，只要计算出一个offsets偏移即可。

d-conv
如果不考虑batch和channel的维度，假设有一个 $\times W$ 的feature map，对于任意一个采样点的偏移，都需要x方向和y方向的偏移，仅仅这样还不够。由于卷积核是 $\times k$ 大小的，卷积核上的每个采样点都要有偏移。所以每个点必须要有 $\times k \times k$ 个offsets。所以生成的offsets的尺寸为 $\times W \times 2k^2$

在mmcv中使用可变形卷积，先利用常规的conv计算出offsets变量：

import torch
import torch.nn as nn
from mmcv.ops import DeformConv2d

class DeformableConvNet(nn.Module):
    def __init__(self, in_channels, out_channels, kernel_size=3):
        super(DeformableConvNet, self).__init__()
        self.offsets = nn.Conv2d(in_channels, 2 * kernel_size * kernel_size, kernel_size=kernel_size, padding=1)
        self.deform_conv = DeformConv2d(in_channels, out_channels, kernel_size=kernel_size, padding=1)

    def forward(self, x):
        offsets = self.offsets(x)  # 生成偏移量
        x = self.deform_conv(x, offsets)  # 可变形卷积操作
        return x

# 示例
input = torch.randn(1, 3, 64, 64)
model = DeformableConvNet(in_channels=3, out_channels=64, kernel_size=3)
output = model(input)

Deformable RoI Pooling

应用到ROI Pooling也是一样的，而且ROI Pooling相较于普通的Pooling，不需要进行移动和多次采样。所以直接是用一个全连接层，输出的offsets特征通道数是 $\times h \times w$ ，其中 $h$ 和 $w$ 是输出ROI的特征图的大小，2表示x，y方向的偏移。具体来说，输出的offsets tensor形状为 $\times h \times w, H,W)$ ，其中 $N$ 是batch的大小。