摘要
TPH-YOLOV5
,在
YOLOV5
的基础上,
增加了一个预测头来检测不同尺度的物体
。然后,我们
将原来的
预测头替换为
Transformer Prediction Heads
(
TPH)
,以探索具有自注意力机制的预测潜力
。我们还
继承了卷积块注意力模型(
CBAM
)
,以在对象密集的场景中找到注意力区域。为了实现对我们提出的TPH-YOLOV5的更多改进,我们提供了一些有用的策略,如数据增强、多尺度测试、多模型集成和利用额外的分类器。
1、介绍
使用通常的目标检测方法直接处理无人机捕获场景中的目标检测任务主要有三个问题,图
1
中的一些案例直观的说明了这三个问题:
首先,由于无人机的飞行高度变化很大,物体尺度变化剧烈。其次,无人机拍摄的图像包含高密度的物体,这会导致物体之间的遮挡。第三,无人机拍摄的图像由于覆盖面积大,总是包含令人困惑的地理元素。
本文中,在
yolov5
的基础上提出了一个改进的模型
TPH-YOLOv5
来解决上述三个问题。
使用
TPHYOLOv5
的检测管道概述如图
2
所示。我们分别使用
CSPDarknet53
和路径聚合网络(
PANet)
作为TPHYOLOv5
的主干和瓶颈,该网络遵循原始版本。在头部,我们首先介绍了一个用于微小物体检测的头部。TPH-YOLOV5
总共包含
4
个探测头
,分别用于探测微小、小型、中型和大型物体。然后,我们
将
原始预测头替换为
Transformer Prediction Heads(TPH)
,以探索预测潜力
。为了在具有大覆盖范围的图像中找到注意力区域。我们采用卷积注意力模块(
CBAM
)沿通道和空间维度顺序生成注意力图
。
为了进一步提高
TPH-YOLOv5
的性能,我们采用了一些技巧(如图
2
)。具体来说,
在训练过程中采用了
数据增强
,这促进了对图像中物体大小急剧变化的适应
。在推理过程中加入多尺度测试和多模型集成策
略
,以获得更令人信服的检测结果。此外,通过对故障案例的可视化,我们发现我们提出的架构具有出色的本地化能力,但分类能力较差,尤其是在一些类似的类别上,如“
三轮车
“
和
”
遮阳蓬三轮车
“。为了解
决这个问题,我们
提出了一个自训练分类器(
ResNet18),
使用从训练数据中裁剪的图像块作为分类训练
集
。
贡献:
增加了一个预测头来处理对象的大尺度方差
我们
将
TPH
集成到
YOLOv5
中,它可以在高密度场景中准确定位对象
我们
将
CBAM
集成到
YOLOv5
中
,这可以帮助网络在具有大区域覆盖的图像中找到感兴趣区域。
我们为无人机捕获场景中的目标检测任务提供了有用的技巧包和过滤一些无用的技巧。
我们
使用自训练分类器来提高对一些混淆类别的分类能力。
2、相关工作
2.1数据增强
数据扩充的有效性是扩展数据集,使模型对不同环境下获得的图像具有更高的鲁棒性。
光度失真和几何
失真
被研究人员广泛使用。至于光度失真,我们调整了图像的色调、饱和度值。在处理几何失真时,我们添加了随机缩放、裁剪、平移、剪切和旋转。除了上述全局像素增强方法之外,还有一些更独特的数据增强方法。一些研究人员提出了将多个图像一起用于数据增强的方法,即Mixup
、
CutMix
和
Mosaic
。MixUp从训练图像中随机选择两个样本进行随机加权求和,样本的标签也对应于加权求和。与通常使用零像素“
黑布
”
来遮挡图像的遮挡工作不同。
CutMix
使用另一个图像的一个区域来覆盖被遮挡的区域
。Mosaic是
CutMix
的改进版。
Mosaic
拼接了四幅图像,极大地丰富了检测对象的背景。此外,批量归一化计算每层上4
个不同图像的激活统计信息。在TPH-YOLOv5
中,我们
在数据扩充中结合了
MixUp
、
Mosaic
和传统方法
。
总结
结合了
MixUp
、
Mosaic
和传统方法(光度失真和几何失真)。
2.2 目标检测中的多模型集成方法
深度学习神经网络是一种非线性方法。它们提供了更大的灵活性,并且可以与训练数据量成比例地扩展。这种灵活性的一个缺点是,他们通过随机训练算法学习,这意味着他们对训练数据的细节很敏感,每次训练时可能会发现不同的权重集,从而产生不同的预测。这使得神经网络具有很高的方差。减少神
经网络模型方差的一个成功方法是训练多个模型而不是单个模型,并将这些模型的预测相结合
有三种不同的方法来集成来自不同对象检测模型的盒子
:
非最大值抑制(
NMS
)、
Soft-NMS
、加权盒
子融合(
WBP
)
。在
NMS
方法中,如果框的重叠、交集并集(
IoU
)高于某个阈值,则认为它们属于同一对象。对于每个对象,NMS
只留下一个置信度最高的边界框,其他边界框将被删除。因此,盒子过滤过程取决于这个单一IoU
阈值的选择,这对模型性能有很大影响。
Soft-NMS
与
NMS
相比有细微的改变,
Soft-NMS
在标准基准数据集(
PASCAL VOC
和
MS COCO
)上表现出了显著的改进。他基于IoU
值为相邻边界框的置信度设置衰减函数,而不是将其置信度分数完全设置为零并将其删除。WBF
的工作方式与
NMS
不同。
NMS
和
Soft NMS
都排除了一些框,而
WBF
合并了所有
框以形成最终结果
。因此,
它可以解决模型中所有不准确的预测。我们使用
WBF
来集成最终模型,它的
性能比
NMS
好得多。
总结
训练多个模型而不是单个模型,并将这些模型的预测相结合。我们通过使用
WBF
合并了所有框以形成最
终结果,这可以解决模型中所有不准确的预测。
2.3 对象检测
从组件的角度来看,探测器通常由两部分组成,一部分是基于
CNN
主干,用于图像特征提取,另一部分是检测头,用于预测对象的类别和边界框。此外,近年来开发的物体探测器经常在backbone
和
head
之间插入一些层,人们通常称这部分为探测器的颈部。
Backbone
:
经常使用的主干网包括
VGG
、
ResNet
、
DenseNet
、
MobileNet
、
EfficientNet
、 CSPDarket、
Swing Transformer
等。而不是我们自己设计的网络、因为这些网络已经证明它们在分类和其他问题上具有强大的特征提取能力。但研究人员也将对主干进行微调,使其更适合特定任务。
Neck
:neck
的设计是为了更好地利用主干提取的特征。它对
backbone
在不同阶段提取的特征图进行了重新处理和合理使用。通常,一个瓶颈由几个自下而上的路径和几个自上而下的路径组成。neck
是目标检测框架中的一个重要环节。
head
:作为一个分类网络,主干网络无法完成定位任务,头部被设计为负责通过从主干网提取的特征图来检测物体的位置和类别。头部通常分为两种:一级物体检测器和两级物体检测器。两级探测器长期以来都是物体检测领域的主导方法,最具代表性的是RCNN
系列。与两级探测器相比,一级探测器同时预测边界盒和对象类别。
3、TPH-YOLOv5
3.1 Overview of YOLOv5
通常,
YOLOv5
分别使用
CSPDarknet53
的架构,
SPP
层作为主干,
PANet
作为
neck
和
YOLO
检测头
。由于Yolov5
是最显著和最方便的一级探测器,我们选择它作为我们的基准。
当使用
VisDrone2021
数据集和数据增强策略(
Mosaic
策略和
MixUp)
训练模型时,我们发现
Yolov5x
的结果比yolov5s
、
Yolov5m
、
yolov5l
好
得多。即使
yolov5x
模型的计算成本比其他三个模型的训练运算成本高,我们仍然选择使用yolov5x
来追求最佳的检测性能。
3.2 TPH-YOLOv5
TPH-YOLOv5
的框架如图
3
所示
我们修改了原始的
YOLOv5
,使其专门用于
VisDrone
数据集。
Prediction head for tiny objects
。我们研究了
VisDrone2021
数据集,发现它包含许多极小的实
例,因此
我们增加了一个用于微小物体检测的预测头
。结合其他三个预测头,我们的四头结构可以缓解 由剧烈的物体尺度变化引起的负面影响。如图3
所示,我们添加的预测头(
1
号头)是由低级别、高分辨率的特征图生成的,对微小物体更敏感。添加额外的检测头后,尽管计算和内存成本增加,但微小物体检测的性能变大。
(添加了一个微小物体预测头)
Transformer encoder block
:
受
vision Transformer
的启发,我们用
trnsformer encoder blocks
替换了YOLOv5
原始版本中的一些卷积块和
CSP
瓶颈块。其结构如图
4
所示,与
CSPDarknet53
中的原始瓶颈块相比,我们相信transformer encoder blocks
可以捕获全局信息和丰富的上下文信息。每个
transformer encoder
都包含两个子层。第一个子层是多头注意力层,第二个子层(
MLP
)是全连接层。每个子层之间使用剩余连接。Transfotrmer encoder blocks
增加了捕获不同本地信息的能力。它还可以利用自注意机制探索特征表示的潜力。
基于
yolov5
,我们只在头部应用
transformer encoder blocks
来形成变压器预测头(
TPH
)和主干的末端。因为网络末端的特征图具有低分辨。将TPH
应用于低分辨率特征图可以降低昂贵的计算和内存成本。此外,当我们放大输入图像的分辨率时,我们可以选择去除早期层的一些TPH
块来进行训练。
卷积块注意力模块(
CBAM
)
。
CBAM
是一个简单但有效的注意力模块。它是轻量级模块,可以集成到最著名的CNN
架构中,并且可以以端到端的方式进行训练。给定一个特征图,
CBAM
沿着通道和空间的两个独立维度依次推断注意力图,然后将注意力图与输入特征图相乘,以进行自适应特征细化。CBAM模块的结构如图5
所示,根据论文
[54]
中的实验,将
CBAM
集成到不同分类和检测数据集上的不同模型中后,模型的性能得到了很大的提高,证明了该模型的有效性。 使用CBAM
可以提取注意力区域,帮助
TPH-YOLOv5
抵御混乱的信息,并专注于有用的目标对象。
Ms-
测试和模型集成
。我们
根据模型集成的不同视角训练了五个不同的模型
。在推理阶段,我们首先对单个模型执行nms
测试策略。
ms
测试的实现细节如下三个步骤。
1
)将测试图像缩放为
1.3
倍。
2
)分别将图像缩小到
1
倍、
0.83
倍和
0.67
倍。
3
)水平翻转图像。
最后,我们将六个不同的缩放图像提供给
TPH-YOLOv5
,并使用
NMS
融合测试预测。
在不同的模型上,我们执行相同的
ms
测试操作,并融合
WBF
的最后五个预测,以获得最终结果。
自我训练的分类器
。在用
TPH-YOLOv5
训练
VisDrone
数据集后,我们对测试并发数据集进行了测试,然后通过可视化故障案例来分析结果,得出结论:TPH-YOLOv5
具有出色的定位能力,但分类能力较差。我们进一步探索了图6
所示的混淆矩阵,并观察到一些硬类别的精度很低,如三轮车和遮阳蓬三轮车。因此,我们提出了一种额外的自训练分类器
。
第一,我们通过裁剪
ground truth
边界框并将每个图像块的大小调整为
64x64
的训练集。然后,我们选
择
ResNet18
作为分类器网路。