《Adaptive Rotated Convolution for Rotated Object Detection》ICCV2023

最新推荐文章于 2024-09-14 17:02:52 发布

夏日的盒盒

最新推荐文章于 2024-09-14 17:02:52 发布

阅读量1k

点赞数 27

文章标签：目标检测目标跟踪人工智能计算机视觉

本文链接：https://blog.csdn.net/qq_46981910/article/details/141106501

版权

摘要

这篇论文针对的是旋转目标检测问题，即在图像中识别和定位任意方向的对象。与常规的目标检测不同，旋转目标检测需要处理对象在图像中可能存在的多种方向。传统的卷积神经网络(backbone networks)在提取这些任意方向目标的特征时面临挑战。为了解决这个问题，论文提出了一种自适应旋转卷积(Adaptive Rotated Convolution, ARC)模块，该模块通过自适应旋转卷积核来提取不同图像中不同方向的目标特征，并引入高效的条件计算机制来处理图像中对象的大范围方向变化。实验结果表明，将ARC模块集成到多种流行的旋转目标检测器中可以显著提高性能。

拟解决的问题

旋转目标检测的挑战，即对象在图像中的方向是任意的，这使得传统的目标检测方法难以准确提取特征。
现有方法在设计特征提取器时很少考虑到旋转目标的特性。

在旋转的目标检测场景中，具有相似视觉外观的对象实例被放置在任意方向(例如汽车)。因此，以数据依赖的方式根据对象的方向旋转卷积核是合理的，而不是处理具有相同静态核的图像样本。

创新之处

提出了自适应旋转卷积(ARC)模块，其中卷积核可以根据输入数据的方向动态旋转。
引入了条件计算技术，使得检测器能够更灵活地处理图像中具有多种方向的对象。
ARC模块可以作为即插即用组件，轻松集成到各种视觉骨干网络中。

方法

ARC模块包括旋转卷积核机制和路由函数。卷积核根据预测的旋转角度进行旋转，而路由函数则预测每个输入的旋转角度和组合权重。
通过深度卷积和平均池化对输入特征进行编码，然后通过两个不同的分支预测旋转角度和组合权重。
ARC模块通过结合多个旋转的卷积核，然后进行卷积操作，从而提高了网络对不同方向目标的表示能力。

卷积核旋转机制

目标：为了解决传统卷积核在处理旋转目标时的局限性，作者提出了一种旋转卷积核的方法，以更好地适应目标的方向。
核心思想：将卷积核视为在“卷积空间”中的采样点，通过插值技术将卷积核参数扩展到二维空间，然后根据旋转角度θ对这些采样点进行旋转。

(a) 原始的3×3卷积核：这部分展示了原始的3×3卷积核，每个权重用一个点表示。在旋转前，所有权重都位于原始位置。

(b) 卷积核的2D空间：这里说明了如何通过插值技术将卷积核的权重扩展到一个二维的“卷积空间”中。这样，原始的权重点可以被视为在这个连续空间中的采样点。

(c) 旋转坐标系以获得新样本坐标：接下来，为了旋转卷积核，原始坐标系被顺时针旋转θ度，以获得新旋转坐标系下的样本坐标。这些坐标将用于从卷积空间中采样新的权重值。

(d) 从卷积空间中采样新参数：在新的旋转坐标下，从卷积空间中采样新的权重值，以形成旋转后的卷积核。这个过程是根据旋转角度θ来调整权重的位置。

(e) 旋转后的卷积核：最后，展示了旋转后的卷积核权重。这些权重已经根据θ度的旋转调整到了新的位置。

拓展阅读：

假设我们有一个3×3的卷积核，在没有进行任何旋转之前（即图2(a)阶段），卷积核如下：

(a) [[1, 2, 3],
[4, 5, 6],
[7, 8, 9]]

引入了“卷积空间”的概念，可以将这个3×3的网格扩展到一个更大的二维空间中，使得每个权重点周围的空间都可以用来进行插值，从而生成新的权重值。在这个更大的空间中，我们可以自由地移动和旋转原始的权重点，而不仅仅是限制在3×3网格的格子线上。

在图2(b)的阶段，卷积空间可能如下：

(b) 卷积空间概念图（实际空间更大，这里仅展示部分扩展区域）
[[1.1, 1.2, ..., 2.3],
[1.3, 1.4, ..., 2.6],
...
[7.7, 7.8, ..., 9.2]]

在这个卷积空间中，原始的权重点（如1, 5, 9等）被保留，但它们周围的新位置（如1.1, 1.2, 1.3等）可以通过插值从原始权重得到新的权重值。这样，我们就创建了一个连续的权重空间，而不是一个离散的网格。

现在，如果我们想要旋转这个卷积核，我们可以在(b)阶段的卷积空间中对权重进行采样，以形成一个新的旋转后的卷积核。这个旋转操作将在图2的(c)阶段描述，并且最终在(e)阶段展示旋转后的结果。

路由函数

路由函数是ARC模块的关键组成部分，用于预测每个卷积核的旋转角度和组合权重，这些预测是基于输入数据的。

结构：

输入特征图首先经过一个轻量级的深度卷积（depthwise convolution），然后是层归一化（layer normalization）和ReLU激活。
激活后的特征通过平均池化被压缩成一个特征向量。
特征向量被送入两个不同的分支：预测一组核及其对应的组合权重 $\left [ \lambda _{1},\lambda _{2}...\lambda _{n} \right ]$ 的一组旋转角度 $\left [ \theta _{1},\theta _{2}...\theta _{n} \right ]$ 。

旋转角度预测：第一个分支是旋转角度预测分支，由线性层和softsign激活函数组成。我们将这个线性层的偏置设置为false，以避免学习偏置角。采用软信号激活，达到低饱和速度。此外，软信号层的输出乘以一个系数，以扩大旋转范围。

组合权重预测：第二个分支称为组合权重预测分支，负责预测组合权重λ。它是由一个具有偏置线性层和sigmoid激活函数构成的。路由函数从一个0.2标准差的零均值截断正态分布初始化，以使模块在学习过程开始时产生较小的值。

自适应旋转卷积模块

动机：在常规卷积层中，所有输入图像都使用相同的卷积核。相比之下，在所提出的自适应旋转卷积模块中，卷积核根据不同的输入特征映射自适应旋转。

条件计算机制：考虑到图像中的对象实例通常面临多个方向，我们引入了一种条件计算机制来处理ARC模块中多个方向的对象。

实现：

ARC 模块有 n 个内核 $\left [ W_{1},W_{2},...,W_{n} \right ]$ ，每个内核的形状为 $\left [ C_{out},C_{in},k,k \right ]$ ， $C_{out},C_{in}$ 分别表示输出和输入通道数。给定输入特征 x，路由函数 f 预测一组旋转角度 θ 和组合权重 λ：

n个核首先根据预测的旋转角度单独旋转 $\left [ \theta _{1},\theta _{2}...\theta _{n} \right ]$ ：

其中 $\theta _{i}$ 表示 $W _{i}$ 的旋转角度， $W _{i}^{'}$ 是旋转内核，Rotate(·) 是旋转过程。这些旋转内核的简单使用分别将它们与输入特征图进行卷积，并以元素方式添加输出特征图：

其中 λ = $\left [ \lambda _{1},\lambda _{2}...\lambda _{n} \right ]$ 是路由函数预测的组合权重，∗ 是卷积操作，y 是组合输出特征图。受条件参数化技术的启发，上述公式可以写成：

结果

我们报告了完整的实验结果，包括 DOTA 数据集上每个类别的平均精度和平均平均精度 (mAP)，以便与以前的方法进行公平比较。我们将所提出的骨干网络与定向 R-CNN 的一种极具竞争力的方法相结合。单尺度和多尺度训练和测试结果如表1和表2所示。当我们使用 ARC-ResNet-50 主干时，自适应旋转卷积可以在单尺度训练和测试策略下将定向 R-CNN 的 mAP 提高 1.54%。随着骨干网深度增加到101，自适应旋转卷积仍然可以将mAP提高1.59%。在多尺度训练和多尺度测试策略下，我们的方法以ResNet-50为基础模型达到了81.77%的mAP。这一结果具有很强的竞争力，并超越了所有其他现有方法，即使与视觉Transformer主干或高级模型预训练机制相比也是如此。