YOLOX论文解读

‘Atlas’

已于 2022-05-15 21:33:59 修改

阅读量3.8k

点赞数 1

分类专栏：论文详解目标检测深度学习文章标签：深度学习计算机视觉人工智能目标检测

于 2022-01-24 22:01:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41994006/article/details/122675106

版权

论文详解同时被 3 个专栏收录

72 篇文章 15 订阅

订阅专栏

45 篇文章 3 订阅

订阅专栏

10 篇文章 2 订阅

订阅专栏

文章目录

创新点
算法
实验结果
结论

论文: 《YOLOX: Exceeding YOLO Series in 2021》
代码: https://github.com/Megvii-BaseDetection/YOLOX

创新点

将YOLO检测器变为anchor-free形式，减少人工设置参数；
集成了其他先进检测技术(比如decoupled head、label assignment策略SimOTA)取得了SOTA性能；

与YOLO-Nano相比，AP提升1.8%；与YOLOv3相比，性能提升3%；
YOLOX-L，与YOLOv4和v5有相当参数量，在COCO数据集上达到50AP，在V100平台上达到68.9FPS；

算法

Decoupled head

为了解决分类分支与回归分支冲突问题，解耦两分支；
解耦头的作用如下：
1、加快拟合；
2、对end-to-end yolo（指无NMS后处理过程）性能影响比较大；如表1
在这里插入图片描述
具体解耦操作如下：如图2
1、使用 $1 * 1$ 卷积降维到256；
2、增加两个并行分支，每个分支（分类、回归）使用两个3*3卷积；
3、在回归分支额外增加iou分支；

Strong data augmentation

数据增强主要采用Mosaic 和 MixUp；
mixup检测与分类原理相似；
1、对于尺度不一的输入，通过补0对齐，尺寸使得可以容纳下两张图；
2、相应的loss权重变为mixup参数lambd；

Anchor-free

Anchor-free可以减少设计的参数量及涉及的许多技巧（anchor聚类、Grid Sensitive）

Multi positives

为了与yolov3一致，anchor-free方案中也仅选择一个正样本（gt中心位置），同时忽略其他高质量预测框；
但是由于有些正样本也有正向作用，同时改善正负样本不均衡，因此作者将中心3*3区域作为正样本； 实验结果如表2，AP达到45，超越最好的YOLOv3基线44.3；
在这里插入图片描述

SimOTA

SimOTA过程如下：
1、计算成对预测框与真值框代价，如式1；
在这里插入图片描述
2、计算真值框与前k个预测框iou，其和为Dynamic k；因此对于不同真值框，其Dynamic k存在差异。
3、最后选择代价最小的前Dynamic k个预测框作为正样本；
SimOTA使得AP从45%提升至47.3%；相对于YOLOv3上，性能提升3%，见表2；

End-to-end YOLO

作者跟随参考文献39，增加两个卷积层，一对一分配标签，停止梯度回传，但是性能及推理速度出现下降，如表2。

实验结果

在这里插入图片描述

结论

作何提出一种高性能anchor-free检测器YOLOX，其在性能及速度上达到比较好的平衡；

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
3
评论
YOLOX论文解读

文章目录创新点算法Decoupled headStrong data augmentationAnchor-freeMulti positivesSimOTAEnd-to-end YOLO实验结果结论论文:《YOLOX: Exceeding YOLO Series in 2021》代码: https://github.com/Megvii-BaseDetection/YOLOX创新点将YOLO检测器变为anchor-free形式，减少人工设置参数；集成了其他先进检测技术(比如decoupled
复制链接

扫一扫

专栏目录

‘Atlas’ CSDN认证博客专家 CSDN认证企业博客

码龄6年

103: 原创

1995: 周排名

7万+: 总排名

45万+: 访问

: 等级

3161: 积分

1万+: 粉丝

355: 获赞

174: 评论

1839: 收藏

私信

关注

分类专栏

论文详解 72篇
工程实践 6篇
数据集 1篇
NLP 1篇
3D重建 5篇
通用分割 6篇
实例分割 10篇
数据生成 23篇
跨模态 25篇
虚拟试衣 6篇
图像修复 1篇
工具 1篇
视频生成 7篇
文本识别 1篇
Transformer 8篇
风格迁移 1篇
自监督 1篇
姿态估计 3篇
联邦学习 2篇
姿态迁移 2篇
image translation 1篇
GNN 1篇
深度学习 45篇
机器学习 3篇
Python 6篇
anaconda 1篇
数据结构 1篇
安装 1篇
目标检测 10篇

最新评论

BLIP2-图像文本预训练论文解读
失落的艺术: 这个query embeding和输入图像经过ImageEncoder得到的向量是一个东西吗？还是另外又增加了一个随机向量Query embeding？
BLIP2-图像文本预训练论文解读
巷猫和斑马: 可学习的query embedding就是Q-Former中图像编码器的输入，因为在BLIP2中Image Encoder被冻结了，所以无法通过调整Image Encoder的参数使得学习到的图像特征向量与文本特征向量align，所以使用可学习的Query作为代替，它可以同时考虑图像和文本的特征，以此作为align的桥梁
BLIP2-图像文本预训练论文解读
小喜久: 想问一下，在Q-Former左侧的图像transformer中的可学习query embedding是什么呀
虚拟试衣-DiOr论文解读
m0_59079608: 您好，请问您部署好了吗，可以请教下怎么部署的吗？
BLIP使用教程
DRACO于: 你好，cannot import name BlipProcessor这种是什么原因，单独import transformer是没问题的，也尝试过更新upgrade，已是最新版本

大家在看

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。