TPH-YOLOv5: Improved YOLOv5 Based onTransformer Prediction Head for Object Detectionon

小太阳啊！！

已于 2024-03-25 17:12:47 修改

阅读量1.7k

点赞数 14

文章标签： YOLO 目标检测人工智能深度学习计算机视觉

于 2024-03-25 17:12:31 首次发布

本文链接：https://blog.csdn.net/weixin_43238909/article/details/137019679

版权

摘要

TPH-YOLOV5 ，在 YOLOV5 的基础上， 增加了一个预测头来检测不同尺度的物体 。然后，我们 将原来的 预测头替换为 Transformer Prediction Heads （ TPH) ，以探索具有自注意力机制的预测潜力 。我们还 继承了卷积块注意力模型（ CBAM ），以在对象密集的场景中找到注意力区域。为了实现对我们提出的TPH-YOLOV5的更多改进，我们提供了一些有用的策略，如数据增强、多尺度测试、多模型集成和利用额外的分类器。

1、介绍

使用通常的目标检测方法直接处理无人机捕获场景中的目标检测任务主要有三个问题，图 1 中的一些案例直观的说明了这三个问题：

首先，由于无人机的飞行高度变化很大，物体尺度变化剧烈。其次，无人机拍摄的图像包含高密度的物体，这会导致物体之间的遮挡。第三，无人机拍摄的图像由于覆盖面积大，总是包含令人困惑的地理元素。

本文中，在 yolov5 的基础上提出了一个改进的模型 TPH-YOLOv5 来解决上述三个问题。

使用 TPHYOLOv5 的检测管道概述如图 2 所示。我们分别使用 CSPDarknet53 和路径聚合网络（ PANet) 作为TPHYOLOv5 的主干和瓶颈，该网络遵循原始版本。在头部，我们首先介绍了一个用于微小物体检测的头部。TPH-YOLOV5 总共包含 4 个探测头 ，分别用于探测微小、小型、中型和大型物体。然后，我们将 原始预测头替换为 Transformer Prediction Heads(TPH) ，以探索预测潜力 。为了在具有大覆盖范围的图像中找到注意力区域。我们采用卷积注意力模块（ CBAM ）沿通道和空间维度顺序生成注意力图 。

为了进一步提高 TPH-YOLOv5 的性能，我们采用了一些技巧（如图 2 ）。具体来说， 在训练过程中采用了 数据增强 ，这促进了对图像中物体大小急剧变化的适应 。在推理过程中加入多尺度测试和多模型集成策 略，以获得更令人信服的检测结果。此外，通过对故障案例的可视化，我们发现我们提出的架构具有出色的本地化能力，但分类能力较差，尤其是在一些类似的类别上，如“ 三轮车 “ 和 ” 遮阳蓬三轮车 “。为了解决这个问题，我们 提出了一个自训练分类器（ ResNet18), 使用从训练数据中裁剪的图像块作为分类训练 集。

贡献：

增加了一个预测头来处理对象的大尺度方差

我们将 TPH

最低0.47元/天解锁文章