ARConv论文解析：ICCV顶会｜用于旋转物体检测的自适应旋转卷积，Adaptive Rotated Convolution for Rotated Object Detection

芒果学AI

已于 2025-01-31 18:00:50 修改

阅读量1.7k

点赞数 37

文章标签： YOLO 目标检测计算机视觉

于 2025-01-31 16:14:33 首次发布

本文链接：https://blog.csdn.net/qq_38668236/article/details/145405054

版权

ARConv论文：用于旋转物体检测的自适应旋转卷积

博客包括 ARConv自适应旋转卷积论文 - 论文解析部分

文章末尾部分包含 YOLO11、YOLOv8、YOLOv10、RT-DETR、YOLOv7、YOLOv5 等模型结合+ ARConv 自适应旋转卷积原创改进核心内容

该论文提出了一种用于旋转目标检测的自适应旋转卷积模块 ARConv。
在这里插入图片描述
论文信息：Adaptive Rotated Convolution for Rotated Object Detection
论文链接：https://arxiv.org/pdf/2303.07820

1. ARConv论文理论部分解析

旋转目标检测旨在识别和定位图像中任意方向的物体，近年来成为新兴研究课题。在场景文本检测、面部检测、航空图像识别以及具身人工智能任务中，物体常以任意方向出现，这给检测算法带来巨大挑战。尽管旋转目标检测在物体表示、损失函数、感兴趣区域提取和标签分配策略等方面取得进展，但在骨干特征提取器设计上关注较少。

标准骨干网络在处理旋转物体时存在局限性，因其卷积核参数固定，难以适应物体方向的变化。不同图像中物体方向差异大，且同一图像内也存在多个方向的物体，传统视觉骨干网络设计大多忽略这一固有特征，导致标准骨干模型架构在旋转目标检测任务中可能并非最优。

为解决上述问题，本文提出自适应旋转卷积（ARC）模块。该模块卷积核可自适应旋转，根据输入调整参数，旋转角度由路由函数依数据预测；同时采用高效的条件计算技术，使检测器能更好地处理图像内不同方向的物体，有效扩大参数空间，赋予网络检测不同方向物体的灵活性。ARC模块可作为即插即用模块用于任意卷积层，提升骨干网络对旋转物体的表征能力。

二、相关工作

2.1 旋转目标检测方法

旋转目标检测致力于将通用水平检测拓展到更细粒度问题，通过引入定向边界框实现。相关工作主要包括两方面：一方面是构建专门的旋转目标检测器，涵盖检测器颈部的特征细化设计、定向区域提议网络、旋转感兴趣区域提取机制、检测器头部设计以及先进的标签分配策略；另一方面是设计更灵活的物体表示方式，如Oriented RepPoints将物体表示为一组采样点，Gliding Vertex在经典水平边界框表示基础上添加四个滑动偏移变量，CFA将不规则物体布局和形状建模为凸包，G - Rep提出统一的高斯表示用于构建定向边界框、四边形边界框和点集的高斯分布。此外，针对各种定向物体表示的合适损失函数也得到广泛研究，如GWD和KLD将旋转边界框转换为二维高斯分布，分别计算高斯 Wasserstein 距离和Kullback - Leibler散度作为损失，KFIoU提出基于高斯建模和卡尔曼滤波的有效近似SkeIoU损失。

在这里插入图片描述

2.2 动态网络

动态网络是深度学习领域的新兴研究课题，与静态网络模型不同，它能在推理阶段根据输入自适应调整网络结构或参数，具有效率高、表示能力强、适应性好、兼容性强和可解释性等优点。动态网络可分为样本级、空间级和时间级动态网络。

样本级动态网络根据数据处理不同输入，从动态架构和动态参数两个角度设计。动态架构通常基于每个样本调整模型架构以分配适当计算量，减少冗余计算，提高效率，常见技术包括早期退出、层跳过、专家混合和超网中的动态路由；动态参数方法在固定计算图下使网络参数适应每个输入，从基于输入调整训练参数、直接从输入生成网络参数、根据输入调整核形状以及用软注意力重新缩放特征四个方面实现，以最小的计算成本提升表示能力。

空间级动态网络对最具信息的区域进行空间自适应推理，减少对不太重要区域的不必要计算，现有工作主要包括分辨率级、区域级和像素级动态计算。时间级动态网络将动态计算思想扩展到序列数据，通常用于处理文本数据和视频。

本文提出的方法属于参数调整类，通过自适应旋转卷积核参数，提升骨干特征提取器的表示能力，尤其适用于旋转目标检测场景。

三、方法

3.1 卷积核旋转机制

标准卷积在大多数定向目标检测器中作为骨干，使用一致参数从所有图像样本中提取特征。在旋转目标检测场景中，这意味着无论物体旋转角度如何，都使用固定方向的静态卷积核进行处理。为解决任意方向物体实例与静态卷积核之间的差距，本文提出以数据驱动的方式在核空间内采样权重来旋转卷积核。

对于给定的旋转角度 $\theta$ （定义逆时针方向为正），以单通道卷积核旋转为例，不再将卷积权重视为独立参数，而是看作从核空间采样的点。通过双线性插值，原始卷积参数可扩展为二维核空间（图2(b)）。卷积核旋转过程就是在旋转后的坐标中从核空间采样新权重值的过程，采样坐标通过将原始坐标围绕中心点顺时针旋转 $\theta$ 度得到（图2©）。在旋转后的坐标中从原始核空间采样值（图2(d)），即可得到旋转后的卷积核（图2(e)）。注意，若要使卷积核逆时针旋转 $\theta$ 度，图2中的坐标需顺时针旋转 $\theta$ 度。

对于卷积层整体参数（形状为 $C_{out}, C_{in}, k, k]$ ，其中 $C_{in}$ 和 $C_{out}$ 分别表示输入通道数和输出通道数， $k$ 为核大小），只需对所有 $C_{in}$ 通道和所有 $C_{out}$ 个卷积核应用上述相同过程，即可得到旋转后的权重参数。

在这里插入图片描述

3.2 路由函数

路由函数是自适应旋转卷积模块的关键组件之一，它根据数据预测旋转角度和组合权重。路由函数以图像特征 $x$ 为输入，预测一组卷积核的旋转角度 $[\theta_{1}, \cdots, \theta_{n}]$ 以及相应的组合权重 $[\lambda_{1}, \cdots, \lambda_{n}]$ 。

路由函数的整体架构如图3©所示。输入图像特征 $x$ （大小为 $C_{in}, H, W]$ ）首先进入一个轻量级的3×3深度卷积层，接着进行层归一化和ReLU激活。激活后的特征通过平均池化变成一个 $C_{in}$ 维的特征向量。该池化后的特征向量被送入两个不同分支：

旋转角度预测分支：由一个线性层和一个softsign激活函数组成。设置线性层的偏置为false以避免学习有偏差的角度，采用softsign激活函数是因其饱和速度低。此外，softsign层的输出乘以一个系数以扩大旋转范围。
组合权重预测分支：负责预测组合权重 $\lambda$ ，由一个带偏置的线性层和一个sigmoid激活函数构成。

路由函数从标准差为0.2的零均值截断正态分布初始化，使模块在学习过程开始时产生较小的值。

3.3 自适应旋转卷积模块

在常规卷积层中，所有输入图像使用相同的卷积核；而在自适应旋转卷积模块中，卷积核根据不同的输入特征图自适应旋转。考虑到图像中的物体实例通常面向多个方向，ARC模块引入条件计算机制来处理多方向物体。

ARC模块有 $n$ 个卷积核 $(W_{1}, \cdots, W_{n}$ )，每个卷积核形状为 $C_{out}, C_{in}, k, k]$ 。给定输入特征 $x$ ，路由函数 $f$ 预测一组旋转角度 $\theta$ 和组合权重 $\lambda$ ，即：
$\theta, \lambda = f(x)$
$n$ 个卷积核首先根据预测的旋转角度 $\theta = [\theta_{1}, \theta_{2}, \cdots, \theta_{n}]$ 分别旋转：
$W_{i}' = Rotate(W_{i}; \theta_{i}), i = 1,2, \cdots, n$
其中 $\theta_{i}$ 表示 $W_{i}$ 的旋转角度， $W_{i}'$ 是旋转后的卷积核， $R o t a t e (\cdot)$ 是3.1节描述的旋转过程。

一种简单的使用这些旋转后卷积核的方法是分别将它们与输入特征图进行卷积，然后将输出特征图按元素相加：
$\lambda_{1}(W_{1}' * x)+\lambda_{2}(W_{2}' * x)+\cdots+\lambda_{n}(W_{n}' * x)$
其中 $\lambda = [\lambda_{1}, \lambda_{2}, \cdots, \lambda_{n}]$ 是路由函数预测的组合权重， $*$ 是卷积运算， $y$ 是组合后的输出特征图。

受条件参数化技术启发，上述公式可写为：
$(\lambda_{1}W_{1}'+\lambda_{2}W_{2}'+\cdots+\lambda_{n}W_{n}') * x$
这意味着分别对输入特征进行卷积并相加输出（公式3）等价于用这些卷积核的组合卷积权重进行一次卷积运算（公式4）。这种策略提高了网络捕捉多方向物体特征的表示能力，同时保持高效，因为与公式3相比，公式4中繁重的卷积计算仅发生一次。

3.4 实现细节

由于ARC模块可方便地作为即插即用模块用于任何带有卷积层的骨干网络，本文基于常用的ResNet构建了ARC - ResNet骨干网络。在后续实验中，将ResNet最后三个阶段的所有3×3卷积替换为ARC模块，1×1卷积保持不变，因为1×1卷积具有旋转不变性。在消融研究部分（4.4节）将说明替换网络不同部分对性能的影响。

此外，在训练过程中，对所提出的骨干网络的学习率进行了调整。这种调整有助于在旋转目标检测任务中避免预测旋转角度的剧烈变化。

四、实验

4.1 实验设置

4.1.1 数据集

DOTA - v1.0：一个大规模旋转目标检测数据集，包含2806张照片和188282个带定向边界框注释的实例，涵盖15个物体类别，图像大小从800×800到4000×4000像素不等。实验中将原始图像裁剪为1024×1024的图像块，步长为824（相邻图像块像素重叠200）。在多尺度训练和测试时，先将原始图片调整为三个尺度（0.5、1.0和1.5），再裁剪为1024×1024的图像块，步长为524。按照惯例，使用训练集和验证集进行训练，测试集进行测试。通过将测试结果提交到DOTA数据集的官方评估服务器，获取每个类别的平均精度和平均精度均值（mAP）。
HRSC2016：另一个广泛使用的任意方向目标检测基准，包含1061张图像，大小范围从300×300到1500×900。训练集（436张图像）和验证集（181张图像）用于训练，其余用于测试。评估指标采用COCO风格的平均精度均值（mAP）以及0.5和0.75阈值下的平均精度（ $AP_{50}$ 和 $AP_{75}$ ）。在数据预处理过程中，不改变图像的宽高比。

4.1.2 实现细节

除Oriented R - CNN使用OBBDetection代码库实现外，DOTA和HRSC2016数据集上的实验结果均使用MMRotate工具box获得。在DOTA数据集上，所有模型训练12个epoch；在HRSC2016数据集上，Rotated RetinaNet训练72个epoch， $S^{2}$ ANet和Oriented R - CNN训练36个epoch。不同检测器和数据集的详细训练配置在补充材料中提供，在使用本文提出的骨干网络和基线骨干网络进行实验时，保持训练配置相同以确保公平比较。

4.2 在各种架构上的有效性

将配备ARC模块的骨干网络与使用标准ResNet - 50的骨干网络进行比较，实验结果分别展示在表1（DOTA数据集）和表2（HRSC2016数据集）中。结果表明，本文方法显著提高了各种旋转目标检测网络的泛化能力。

在最常用的旋转目标检测基准DOTA - v1.0上，本文方法在单阶段和两阶段检测器上均取得显著改进：

对于单阶段检测器，Rotated RetinaNet的mAP提高了3.03%，R3Det提高了2.62%， $S^{2}$ ANet提高了1.36%。
对于两阶段检测器，Rotated Faster R - CNN的mAP提高了1.60%，CFA提高了4.16%，Oriented R - CNN提高了1.54%。

在HRSC2016数据集上，本文方法同样取得显著改进，Rotated RetinaNet的mAP提高了1.27%， $S^{2}$ ANet提高了2.12%，Oriented R - CNN提高了1.84%。这些实验结果验证了所提出的骨干网络与各种检测网络架构的兼容性，以及在定向目标检测任务中有效提升性能的能力。

在这里插入图片描述

4.3 与最先进方法的比较

在DOTA数据集上报告完整实验结果，包括每个类别的平均精度和平均精度均值（mAP），以便与先前方法进行公平比较。将本文提出的骨干网络与竞争力较强的Oriented R - CNN方法相结合，单尺度和多尺度训练及测试结果分别展示在表3和表4中。

在单尺度训练和测试策略下，使用ARC - ResNet - 50骨干网络时，自适应旋转卷积比静态卷积使Oriented R - CNN的mAP提高了1.54%；当骨干网络深度增加到101时，自适应旋转卷积仍能使mAP提高1.59%。在多尺度训练和多尺度测试策略下，以ResNet - 50为基础模型，本文方法达到了81.77%的mAP，该结果极具竞争力，超过了所有现有方法，即使与基于视觉Transformer骨干网络或具有先进模型预训练机制的方法相比也是如此。

4.4 消融研究

在这里插入图片描述

进行消融研究以分析不同设计选择对旋转目标检测性能的影响，包括自适应核旋转机制、条件计算机制、卷积核数量 $n$ 、骨干网络替换策略以及路由函数结构等方面。

自适应核旋转：在DOTA数据集上比较数据驱动的卷积核旋转与静态卷积的性能，结果如图4所示。从图中前两行比较可知，采用自适应核旋转后，目标检测器的性能显著提升（在Oriented R - CNN上mAP提高1.16%，与最先进方法相比极具竞争力），验证了自适应卷积核旋转方法在捕捉定向物体方面的有效性。
条件计算：图4中第2行和第3行结果展示了采用更多自适应旋转卷积核的效果。通过赋予卷积核更多旋转方向，定向目标检测器的性能进一步提升。这是因为图像中的物体通常具有多个方向，单个自适应卷积核不足，采用更多不同方向角度的卷积核可使骨干特征提取器更灵活地生成任意方向物体的高质量特征。
卷积核数量消融：表5报告了不同卷积核数量 $n$ 下的参数数量、浮点运算次数（FLOPs）、推理速度（以FPS为单位）和性能（以mAP为单位）信息。FLOPs以1024×1024图像分辨率计算，FPS在RTX 3090上测试，批次大小为1，使用FP16和torch.compile()。结果表明，随着卷积核数量逐渐增加，mAP呈持续上升趋势，而FLOPs和FPS基本不变。这表明本文方法在保持高效率的同时显著提高了mAP，与基线模型相比，FLOPs仅增加0.002%，FPS下降不到2.7%，且参数数量不再是评估模型效率的瓶颈。
替换策略：由于特征金字塔网络（FPN）连接在骨干网络的最后三个阶段，实验中不替换第一阶段的卷积层，对最后三个阶段的替换策略进行消融实验。在DOTA数据集上，以50层骨干网络的Oriented R - CNN为基础进行实验。最初，将骨干网络最后阶段的所有3×3卷积替换为ARC模块，mAP指标比基线模型提高1.36%。进一步替换更多阶段的卷积层，在定向目标检测基准上的性能稳步提升。最终选择替换骨干网络的最后三个阶段。
路由函数结构：对路由函数中的两个设计进行消融实验。第一个设计是空间信息编码，在平均池化层之前添加深度卷积模块（见图3©）；第二个设计是使用组合权重预测分支自适应组合每个卷积核的权重（图3©中产生 $\lambda$ 的分支），而不是简单取平均值。在DOTA数据集上使用Oriented R - CNN进行实验，结果如表7所示。添加空间编码模块后，性能从76.41%提升到76.80%，这是因为额外的卷积层帮助路由函数从特征图中捕捉空间方向信息。同时，引入自适应组合可使mAP获得0.47%的提升，显示了在不同旋转卷积核之间采用自适应的优势。当同时使用这两个设计时，定向目标检测器达到最高性能，因此在提出的路由函数中采用这两个设计。

4.5 可视化

为深入理解本文方法，使用Oriented R - CNN检测器在DOTA测试集上对预测的定向边界框和相应分数进行可视化。通过比较使用本文提出的骨干网络和基线骨干网络的检测器结果（图5），展示了本文方法的优越性。具体而言，由于本文方法在处理任意方向物体实例方面的适应性，在检测小物体（如第三列中的船）、中等物体（如前两列中的飞机和港口）以及大物体（如最后一列中的网球场和足球场）时，具有更出色的定位和识别能力。

五、芒果YOLO系列改进：基于 ARConv 原创改进内容🚀🚀🚀

ARConv论文解析：ICCV顶会｜用于旋转物体检测的自适应旋转卷积，Adaptive Rotated Convolution for Rotated Object Detection

ARConv论文：用于旋转物体检测的自适应旋转卷积

文章目录

1. ARConv论文理论部分解析

二、相关工作

2.1 旋转目标检测方法

2.2 动态网络

三、方法

3.1 卷积核旋转机制

3.2 路由函数

3.3 自适应旋转卷积模块

3.4 实现细节

四、实验

4.1 实验设置

4.1.1 数据集

4.1.2 实现细节

4.2 在各种架构上的有效性

4.3 与最先进方法的比较

4.4 消融研究

4.5 可视化

五、芒果YOLO系列改进：基于 ARConv 原创改进内容🚀🚀🚀

5.1 将 ARConv 改进到 YOLO11 中 - 基于 ARConv 原创改进核心内容

5.2 将 ARConv 改进到 YOLOv8 中 - 基于 ARConv 原创改进核心内容

5.3 将 ARConv 改进到 YOLOv10 中 - 基于 ARConv 原创改进核心内容

5.4 将 ARConv 改进到 RT-DETR 中 - 基于 ARConv 原创改进核心内容

5.5 将 ARConv 改进到 YOLOv7 中 - 基于 ARConv 原创改进核心内容

5.6 将 ARConv 改进到 YOLOv5 中 - 基于 ARConv 原创改进核心内容