基于视觉Transformer的目标检测
无卷积骨干网络:金字塔Transformer,提升目标检测/分割等任务精度
https://github.com/whai362/PVT
例如,在参数数量相当的情况下,PVT+RetinaNet在COCO数据集上实现了40.4 AP,超过ResNet50+RetinNet(36.3 AP)4.1个绝对AP(见下图)。研究者希望PVT可以作为像素级预测的替代和有用的主干,并促进未来的研究。
提供了新思路,比不上yolov系列,研究可以,做工业产品貌似不太适合。
YOLOS:
Transformer能否以最少的2D空间结构从纯粹的序列到序列的角度进行2D目标识别呢?
为回答该问题,我们提出了YOLOS(You Only Look at One Sequence),一系列基于朴素ViT(即尽可能少的进行修改)的目标检测模型。我们发现:在中等大小数据集ImageNet上预训练的YOLOS已经足以在COCO上取得极具竞争力的目标检测性能,比如:YOLOS-Base可以取得42.0boxAP指标。与此同时,我们还通过目标检测。讨论了当前预训练机制、模型缩放策略对于Transformer在视觉任务中的局限性。
一部分介绍:
致敬YOLO!华科提出YOLOS:基于视觉Transformer的目标检测_3D视觉工坊-CSDN博客
模型都不是特别小,跟yolov5比,感觉还是差一些。
最小74m,最大42.0的模型1.4G
GitHub - hustvl/YOLOS: You Only Look at One Sequence (https://arxiv.org/abs/2106.00666)