摘要
TPH-YOLOV5
,在
YOLOV5
的基础上,
增加了一个预测头来检测不同尺度的物体
。然后,我们
将原来的
预测头替换为
Transformer Prediction Heads
(
TPH)
,以探索具有自注意力机制的预测潜力
。我们还
继承了卷积块注意力模型(
CBAM
)
,以在对象密集的场景中找到注意力区域。为了实现对我们提出的TPH-YOLOV5的更多改进,我们提供了一些有用的策略,如数据增强、多尺度测试、多模型集成和利用额外的分类器。
1、介绍
使用通常的目标检测方法直接处理无人机捕获场景中的目标检测任务主要有三个问题,图
1
中的一些案例直观的说明了这三个问题:

首先,由于无人机的飞行高度变化很大,物体尺度变化剧烈。其次,无人机拍摄的图像包含高密度的物体,这会导致物体之间的遮挡。第三,无人机拍摄的图像由于覆盖面积大,总是包含令人困惑的地理元素。
本文中,在
yolov5
的基础上提出了一个改进的模型
TPH-YOLOv5
来解决上述三个问题。
使用
TPHYOLOv5
的检测管道概述如图
2
所示。我们分别使用
CSPDarknet53
和路径聚合网络(
PANet)
作为TPHYOLOv5
的主干和瓶颈,该网络遵循原始版本。在头部,我们首先介绍了一个用于微小物体检测的头部。TPH-YOLOV5
总共包含
4
个探测头
,分别用于探测微小、小型、中型和大型物体。然后,我们
将
原始预测头替换为
Transformer Prediction Heads(TPH)
,以探索预测潜力
。为了在具有大覆盖范围的图像中找到注意力区域。我们采用卷积注意力模块(
CBAM
)沿通道和空间维度顺序生成注意力图
。
为了进一步提高
TPH-YOLOv5
的性能,我们采用了一些技巧(如图
2
)。具体来说,
在训练过程中采用了
数据增强
,这促进了对图像中物体大小急剧变化的适应
。在推理过程中加入多尺度测试和多模型集成策
略
,以获得更令人信服的检测结果。此外,通过对故障案例的可视化,我们发现我们提出的架构具有出色的本地化能力,但分类能力较差,尤其是在一些类似的类别上,如“
三轮车
“
和
”
遮阳蓬三轮车
“。为了解
决这个问题,我们
提出了一个自训练分类器(
ResNet18),
使用从训练数据中裁剪的图像块作为分类训练
集
。
贡献:
增加了一个预测头来处理对象的大尺度方差
我们
将
TPH