(论文阅读)实例分割之YolactEdge

一、介绍

YolactEdge是第一个可在小型边缘设备上以实时速度运行的有竞争力的实例分割方法。
550x550分辨率的图像上,以ResNet-101为主干网的YolactEdge在RTX 2080 Ti上的运行速度为172.7 FPS,收录于ICRA 2021。
演示视频可到B站去看:
https://www.bilibili.com/video/BV1BU4y1J7ym
论文地址:https://arxiv.org/abs/2012.12259
代码地址:https://github.com/haotian-liu/yolact_edge
文章标题

1.1、摘要

我们提出了YolactEdge,是第一个可在小型边缘设备上以实时速度运行的有竞争力的实例分割方法。具体来说,YolactEdge在Jetson AGX Xavier上运行高达30.8 FPS(在RTX 2080 Ti上运行172.7 FPS),在550x550分辨率的图像上使用ResNet-101骨干。为了实现这一点,我们对目前最先进的基于图像的实时方法YOLACT[1]进行了两个改进:
(1)应用TensorRT优化,同时小心地权衡速度和准确性;
(2)利用视频中的时间冗余利用新的特征扭曲模块。
在YouTube VIS和MS COCO数据集上的实验表明,与现有的实时方法相比,YolactEdge产生了3-5倍的速度,同时产生了具有竞争力的掩膜和盒检测精度。我们还进行了消融研究,以剖析我们的设计选择和模块。代码和模型可以在https://github.com/haotian-liu/yolact_edge上找到。

我的理解就是模型速度更快,但精度没降低多少,仍然具有竞争力。

1.2、TensorRT简介

摘要中提到了TensorRT,这里简单介绍一下:
深度学习工程中的模型加速越来越成为刚需,模型的压缩和剪枝在最近的CVPR和ICLR会议中收到越来越多的关注,模型预测的实时性十分重要,不可能说一秒只预测几张,一秒内的变化有时候是很大的。因为研究图像识别领域最终是需要应用起来的,而应用的话就必须得部署在嵌入式设备上,像CenterMask、BlendMask和SOLOv2通过利用更精确的目标探测器(如FCOS),在一定程度上提高了精度。需要像Titan Xp/RTX 2080Ti这样庞大的gpu来实现实时速度。不可能每一应用地方都花重金买Titan Xp/RTX 2080Ti,因此,需要节约成本。
TensorRT是英伟达产品专门的模型加速工具,它一般只负责模型的推理(inference)过程,而不用来训练模型。
TensorRT是英伟达针对自家平台做的加速包,TensorRT主要做以下这么两件事,来提升模型的运行速度。

①、TensorRT支持INT8和FP16的计算。深度学习网络在训练时,通常使用 32 位或 16位数据。TensorRT则在网络的推理时选用不这么高的精度,达到加速推断的目的。
②、TensorRT对于网络结构进行了重构,把一些能够合并的运算合并在了一起,针对GPU的特性做了优化。现在大多数深度学习框架是没有针对GPU做过性能优化的,而英伟达,GPU的生产者和搬运工,自然就推出了针对自己GPU的加速工具TensorRT。一个深度学习模型,在没有优化的情况下,比如一个卷积层、一个偏置层和一个reload层,这三层是需要调用三次cuDNN对应的API,但实际上这三层的实现完全是可以合并到一起的,TensorRT会对一些可以合并网络进行合并。它是通过一个典型的inception block来看一看这样的合并运算。

简单来说就是放弃部分精度+合并网络达到提高速度的效果。

二、详细内容

2.1、和YOLACT对比

在这里插入图片描述
这幅图是对YOLACT的分析,YOLACT主要包括四个部分:
①、特征主干
②、特征金字塔网络(FPN)
③、ProtoNet
④、预测头
分别对这些进行调整,以及是否加TensorRT进行对比,比较他们的mAP和FPS。TensorRT可以提高四倍左右
在这里插入图片描述
通过对比可知,YolactEdge在预测速度上有很大提升,但是精度上还差一点。

2.3、网络结构

在这里插入图片描述

图1:YolactEdge将YOLACT扩展到视频,将一个特征子集从关键帧(左)转换为非关键帧(右),以减少昂贵的骨干计算。具体来说,在非关键帧上,我们计算c3特征,这是节省的,但对于掩码预测至关重要,因为它的高分辨率。这在很大程度上加快了我们的方法,同时保持了非关键帧的准确性。我们使用蓝色、橙色和灰色分别表示计算的、转换的和跳过的块。

三、总结

仅代表个人观点,速度提升这么多,精度没降多少,甚至比MaskRcnn好一点,这点是比较好的,但是局限性也有很大,第一,其局限于使用英伟达的TensorRT,通用性不够强,而其精度有所下降,某些场合或许更在意精度而非速度,有一定的提升空间。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

血狼傲骨

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值