TPH-YOLOv5: Improved YOLOv5 Based onTransformer Prediction Head for Object Detectionon

文章介绍了在YOLOV5基础上,通过增加预测头、TransformerPredictionHeads和CBAM模块来增强目标检测性能,特别针对无人机捕获场景中的尺度变化、遮挡和复杂背景。作者还探讨了数据增强、多尺度测试和模型集成策略,以及如何通过自训练分类器提升分类准确度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

TPH-YOLOV5 ,在 YOLOV5 的基础上, 增加了一个预测头来检测不同尺度的物体 。然后,我们 将原来的 预测头替换为 Transformer Prediction Heads TPH) ,以探索具有自注意力机制的预测潜力 。我们还 继承了卷积块注意力模型( CBAM ,以在对象密集的场景中找到注意力区域。为了实现对我们提出的TPH-YOLOV5的更多改进,我们提供了一些有用的策略,如数据增强、多尺度测试、多模型集成和利用额外的分类器。

1、介绍

使用通常的目标检测方法直接处理无人机捕获场景中的目标检测任务主要有三个问题,图 1 中的一些案例直观的说明了这三个问题:
首先,由于无人机的飞行高度变化很大,物体尺度变化剧烈。其次,无人机拍摄的图像包含高密度的物体,这会导致物体之间的遮挡。第三,无人机拍摄的图像由于覆盖面积大,总是包含令人困惑的地理元素。
本文中,在 yolov5 的基础上提出了一个改进的模型 TPH-YOLOv5 来解决上述三个问题。
使用 TPHYOLOv5 的检测管道概述如图 2 所示。我们分别使用 CSPDarknet53 和路径聚合网络( PANet) 作为TPHYOLOv5 的主干和瓶颈,该网络遵循原始版本。在头部,我们首先介绍了一个用于微小物体检测的头部。TPH-YOLOV5 总共包含 4 个探测头 ,分别用于探测微小、小型、中型和大型物体。然后,我们 原始预测头替换为 Transformer Prediction Heads(TPH) ,以探索预测潜力 。为了在具有大覆盖范围的图像中找到注意力区域。我们采用卷积注意力模块( CBAM )沿通道和空间维度顺序生成注意力图
为了进一步提高 TPH-YOLOv5 的性能,我们采用了一些技巧(如图 2 )。具体来说, 在训练过程中采用了 数据增强 ,这促进了对图像中物体大小急剧变化的适应 。在推理过程中加入多尺度测试和多模型集成策 ,以获得更令人信服的检测结果。此外,通过对故障案例的可视化,我们发现我们提出的架构具有出色的本地化能力,但分类能力较差,尤其是在一些类似的类别上,如“ 三轮车 遮阳蓬三轮车 “。为了解 决这个问题,我们 提出了一个自训练分类器( ResNet18), 使用从训练数据中裁剪的图像块作为分类训练
贡献:
增加了一个预测头来处理对象的大尺度方差
我们 TPH
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值