TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captu

TPH-YOLOv5

image-20210915152942120

参考
Introduciton

在这里插入图片描述

  • TPH-YOLOv5的整体架构如上所示,YOLOv5我没怎么看过,不过我们可以直接看它的结构

    • 首先Backbone部分,前8块和之前区别不大,作者的描述是CSPDarknet53 backbone with three transformer encoder blocks at the end,也就是它其实在CSPDarknet53点基础上在SPP模块的后面添加了三个Transformer层
    • 接下来Neck部分,明显是参考了PANet的结构,只不过用上了CBAM和Transformer的结构
    • 然后是Header部分,用的是魔改的TPH(transformer prediction heads),作者的意思是从Transformer开始到检测输出这段都叫TPH,在我看来其实就是用了Transformer模块然后把这块强行叫做TPH模块,可能就类似‘拍了拍 Transformer’?\手动狗头
Structure
CSPDarknet53
Transformer
  • 关于这部分,也有一篇相关记录,是看李宏毅老师的课的笔记,个人觉得李老师讲的很清楚(只看encoder部分即可)

  • 在这里插入图片描述

  • 这里可以对比下原图和作者给出的Encoder的区别

  • 在这里插入图片描述

  • 可以看到还是有一丢丢不一样的,比如embedding后原版是直接进Multi-Head Attention的,而作者是先做了LayerNorm(这个东东没有详细提,应该是类似BN的Norm,可参考下图),然后作者的版本还多了一个Dropout的操作,这玩意在我的理解为多个subnetwork防止过拟合同时提高检测性能

  • 在这里插入图片描述

CBAM
  • 全称是Convolutional block attention module,这玩意的论文还没看,在补了,可以先参考这个:

  • 目前的理解是使得网络的注意力集中在某些channel和spatial上,以提高检测精度

https://gitee.com/coconut_milk_candy/image-res/raw/master/blog/image-20210915195556359.png

Ms-testing and model ensemble.
  • 这玩意就是多尺度检测+合并
Self-trained classifier
  • 所谓Self-trained classifier就是把这部分额外摘出来用相关数据做图像分类的task train一遍,然后合并回去,这。。。
效果

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

椰子奶糖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值