Yolo系列检测网络不再孤单,延伸框架层出不穷(附框架源代码)

300258477ba1786a6b2dcc5f024b94d0.gif

点击蓝字关注我们

关注并星标

从此不迷路

计算机视觉研究院

0807e992032d5eb451f0764a2bc8dfff.gif

ce566015103421515d8863fcde0d20ee.gif

学习群|扫码在主页获取加入方式

计算机视觉研究院专栏

作者:Edison_G

至今,目标检测框架已经百花齐放,各种应用场景、应用限制的要求,今天“计算机视觉研究院”给大家整理一系列检测框架,不再是大家熟悉的Yolo系列框架!

130685e9520ae9de3f1e480e97ac4569.jpeg

目标检测是现在最热门的研究课题,也一直是工业界重点研究的对象,最近几年内,也出现了各种各样的检测框架,所属于YOLO系列是最经典也是目前被大家认可使用的检测框架。

由于现在越来越多的需求迁移到边缘端,所以对轻量级网络的要求越来越重,那我们先和大家介绍Yolo-Fastest框架

链接:Yolo-Fastest:轻量级yolo系列网络在各硬件实现工业级检测效果

模型非常小、目前最快的YOLO算法——大小只有1.4MB,单核每秒148帧,在一些移动设备上部署特别容易。具体测试效果如下:

5b5d947e0424d7fa3ae76c7eaea883c4.png

9ee340430686809f41c0d2ae0c717268.png

Yolo-Fastest开源代码:https://github.com/dog-qiuqiu/Yolo-Fastest


最近“计算机视觉研究院”也分享了一个视频中,利用Yolo框架进行实时目标检测:

论文地址: https://arxiv.org/pdf/2208.09686.pdf

代码地址: https://github.com/YuHengsss/YOLOV

链接:YoloV:视频中目标实时检测依然很棒(附源代码下载)

18d6f2aaed670291c21794f56a451448.png

由于两阶段的性质,此类检测器通常在计算上很耗时。今天分享的研究者提出了一种简单而有效的策略来解决上述问题,该策略花费了边际开销,并显著提高了准确性。具体来说,与传统的两阶段流水线不同,研究者主张将区域级候选放在一阶段检测之后,以避免处理大量低质量候选。此外,构建了一个新的模块来评估目标框架与其参考框架之间的关系,并指导聚合。

867d48c22f82d872d80545526c9f965e.png


前段时间最火的应该就是Yolov7,其实我们不久前推送了Yolov6以及打假Yolov7框架的吹嘘:

论文地址:https://arxiv.org/pdf/2207.02696.pdf

代码地址:https://github.com/WongKinYiu/yolov7

链接:Yolov7:最新最快的实时检测框架,最详细分析解释(附源代码)

7月份又出来一个Yolov7,在5 FPS到160 FPS范围内的速度和精度达到了新的高度,并在GPU V100上具有30 FPS或更高的所有已知实时目标检测器中具有最高的精度56.8%AP。YOLOv7-E6目标检测器(56 FPS V100,55.9% AP)比基于Transform的检测器SWINL Cascade-Mask R-CNN(9.2 FPS A100,53.9% AP)的速度和准确度分别高出509%和2%,以及基于卷积的检测器ConvNeXt-XL Cascade-Mask R-CNN (8.6 FPS A100, 55.2% AP) 速度提高551%,准确率提高0.7%。

cd323d22260c9e573604cfc23b66f8e6.png

以及YOLOv7的表现优于:YOLOR、YOLOX、Scaled-YOLOv4、YOLOv5、DETR、Deformable DETR , DINO-5scale-R50, ViT-Adapter-B和许多其他目标检测器在速度和准确度上。


Yolov7的打假简介如下:

  • eval的时候NMS是有trick的,multi_label表示一个框是否可以赋予两个类别,但是我们实际部署的时候就是一个框对应一个类别,所以再把multi_label设为False

03c58b833b59a442c817293f37a9ba62.png

测试结果好像又掉了0.2....

aa81e461fac80cafba20a4d500a37159.jpeg

这种YOLO系列测速都是没有比对nms的耗时的,所以为了精度可以对nms大作文章。进nms前的max_nm设置到了30000,实际部署的时候,进入nms的Tensor如果很大会很耗时,一般都不会设置到这么大,1000足够了,改max_nms=1000。同时还有max_det=300表示每张图最多几个框,真的有必要300这么多吗? cocoapi评测工具虽然是max_det=100,但是改300真的也会涨点。

bfd8c67ba8fec827882aafc6a1336f24.png

max_nms=30000,max_det=300这种操作不仅eval过程变慢,生成json的时候更慢,而且如果是训练早期还没训的很好的时候去eval,肯定会很慢。

fa95207064a4046587edfe7f6ade61f5.png

具体详细内容见:打假Yolov7的精度,不是所有的论文都是真实可信


今年比较火的应该不能缺少Transform吧,“计算机视觉研究院”也陆陆续续给大家分享了:

论文地址:https://arxiv.org/pdf/2102.12122.pdf

源代码地址:https://github.com/whai362/PVT

链接:无卷积骨干网络:金字塔Transformer,提升目标检测/分割等任务精度(附源代码)

与最近提出的专为图像分类设计的Vision Transformer(ViT)不同,研究者引入了Pyramid Vision Transformer(PVT),它克服了将Transformer移植到各种密集预测任务的困难。与当前的技术状态相比,PVT 有几个优点:

  1. 与通常产生低分辨率输出并导致高计算和内存成本的ViT不同,PVT不仅可以在图像的密集分区上进行训练以获得对密集预测很重要的高输出分辨率,而且还使用渐进式收缩金字塔以减少大型特征图的计算

  2. PVT继承了CNN和Transformer的优点,使其成为各种视觉任务的统一主干,无需卷积,可以直接替代CNN主干

  3. 通过大量实验验证了PVT,表明它提高了许多下游任务的性能,包括对象检测、实例和语义分割

46d60b8d869c1a5d935afa7b2b52a936.png

今年的ECCV2022会议上也有一篇非常经典及优秀的文章,“计算机视觉研究院”也在不久前给大家分享过。

  • 论文地址:https://arxiv.org/pdf/2111.05297.pdf

  • 代码和模型:https://github.com/szq0214/SReT

链接:ECCV2022:在Transformer上进行递归,不增参数,计算量还少!

cff42929df6c1d9fd1065abe9b785dd5.png

77430614037efcba8c555e12c4ac9893.png

在今年我们还分享了很多目标检测框架,有兴趣的同学请自行查看历史推送消息,或者加入我们学习群,一起来探讨技术问题,共同进步!

计算机视觉研究院 ▶▶▶

JOIN US

学习群

8fcf2645534cf2e74df363d99460938a.gif

© THE END 

转载请联系本公众号获得授权

6d4f1ae4241dcfdb338b3d0b1fdb7c76.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、图像分割、模型量化、模型部署等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

VX:2311123606

3fa2805071cac14f515f3d20c4d1b400.png

往期推荐 

🔗

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计算机视觉研究院

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值