Yolo-FastestV2: 更快，更轻，移动端可达300FPS，参数量仅250k

最新推荐文章于 2024-05-16 16:17:30 发布

Tom Hardy

最新推荐文章于 2024-05-16 16:17:30 发布

阅读量984

点赞数 1

文章标签：算法人工智能计算机视觉编程语言深度学习

原文链接：https://zhuanlan.zhihu.com/p/400474142

版权

作者丨 qiuqiuqiu@知乎（已授权）
来源 | https://zhuanlan.zhihu.com/p/400474142
编辑 | AI约读社

Yolo-FastestV2

简单、快速、紧凑、易于移植
资源占用少，单核性能优异，功耗更低
更快更小：以0.3%的精度损失换取30%的推理速度提升，减少25%的参数量
训练速度快，算力要求低，训练只需要3GB显存，gtx1660ti训练COCO 1 epoch仅需4分钟

Github：https://github.com/dog-qiuqiu/Yolo-FastestV2

贴图先和yolo-fastest-1.1对比下:

是的，这次我没有优化精度，这次优化的是速度，毕竟追求的是fastest..，不过，用0.3%的精度损失换取30%推理速度的提升以及25%的参数量的减少，至少我觉得还是挺值，与其说追求的速度，其实更加注重的是算法效果与推理效率的性价比。

先说说Yolo-Fastest的初衷吧，其实早期轻量的目标检测大家多是用的Mobilenet-SSD，其实在实际测试中，在常用的ARM设备上是很难达到实时的，只有在一些高端手机大核全开勉强达到实时，更别说工业界常用的"性能强悍的"RK3399等ARM CPU呢，达到实时基本是不可能的。包括后来自己用mobilenet对yolov3进行轻量级的优化，用1.8BFlops的计算量在Kirin 990性能上大核全开达到～55fps，虽然能在高端手机上达到很好的速度，但是在一些低端的手机CPU以及工业界常用的高端芯片RK3399，还是没法满足实时的。其次，在实际的应用中，考虑功耗，系统资源占用，一般也不会多核全开去推理模型，毕竟还得留些资源给其他应用，所以我一般部署模型只会设置单核，最多也是双核。尤其在手机上，功耗问题特别严重，假如模型推理时CPU占用过高的话，会引起过热降频，反而会适得其反，其次还有续航的减少。

所以，不光只单单看模型的推理耗时，还得着重关注模型推理所消耗的系统资源，内存，CPU占用等，例如两个模型都可以在cpu上达到30fps，但是模型A是在单核的情况下达到实时，cpu占用才20%，模型B是在4核全开的情况下达到实时，cpu占用可能100%，但是模型B效果可能要好一些，这种情况下需要权衡利弊。

Yolo-Fastest注重的就是单核的实时推理性能，在满足实时的条件下的低CPU占用，不单单只是能在手机移动端达到实时，还要在RK3399，树莓派4以及多种Cortex-A53低成本低功耗设备上满足一定实时性，毕竟这些嵌入式的设备相比与移动端手机要弱很多，但是使用更加广泛，成本更加低廉。

Yolo-FastestV2改进

先说这一版的改进吧，首先模型的backbone替换为了shufflenetV2，相比原先的backbone，访存减少了一些，更加轻量，其次Anchor的匹配机制，参考的YOLOV5，其实YOLOV5与Darknet的官版YOLOV4在Anchor的匹配机制的区别还是挺大的，这点不细讲了，网上解析一大堆，其次是检测头的解耦合，这个也是参考YoloX的，将检测框的回归，前景背景的分类以及检测类别的分类有yolo的一个特征图解耦成3个不同的特征图，其中前景背景的分类以及检测类别的分类采用同一网络分支参数共享。最后将检测类别分类的loss由sigmoid替换为softmax。对了，这次还是只有输出11x11和22x22两个尺度的检测头，因为发现在coco上三个检测头（11x11，22x22，44x44）和两个检测头（11x11，22x22）的精度无太大差异，个人感觉原因如下:1.backbone对应44x44分辨率的特征图太少2.正负anchor的严重不平衡3.小物体属于难样本对于模型学习能力要求高

最后，大家可能关心的是和yolox和nanoDet的对比，精度肯定比不过啊, 不过速度应该会快个两三倍，那体积只有 1.3M 的 PP-YOLO Tiny（"比 YOLO-Fastest 更轻、更快?"）呢，Emmm...用int8的量化后体积和yolo-fastest的fp32的体积比，有点亏...YOLO-FastestV2 int8可是仅仅只有250kb哦，虽然我没跑过PP-YOLO Tiny，但是应该还是比他快。所以，模型的选择还是看大家需求哦。

RK3399和树莓派4搭配ncnn bf16s，YOLO-FastestV2 是可以实时的哦

模型的最终实测效果:

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「计算机视觉工坊」公众号后台回复：深度学习，即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

下载2

在「计算机视觉工坊」公众号后台回复：计算机视觉，即可下载计算机视觉相关17本pdf书籍，包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

下载3

在「计算机视觉工坊」公众号后台回复：SLAM，即可下载独家SLAM相关视频课程，包含视觉SLAM、激光SLAM精品课程。

重磅！计算机视觉工坊-学习交流群已成立
扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：
学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用，麻烦给个赞和在看~

Tom Hardy

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Yolo-FastestV2: 更快，更轻，移动端可达300FPS，参数量仅250k

作者丨qiuqiuqiu@知乎（已授权）来源 | https://zhuanlan.zhihu.com/p/400474142编辑 | AI约读社Yolo-FastestV2简单、快速、...
复制链接

扫一扫