YOLACT:Real-time Instance Segmentation总结

YOLACT:Real-time Instance Segmentation

这篇文章精度不高(mAP=29.8%),但是速度上有了较大的提升(33fps),能够达到实时级别。文中提到训练时只用了一个GPU,titanx。我下载源码用4块1080Ti卡跑的时候,采用COCO2014数据集,默认max_iter为400000次,batchsize为8,显示需要34天。看了下代码,感觉很复杂,数据预处理部分参考的是SSD源码实现中的预处理部分,处理方式比较全,可以借鉴。
**主要创新点:**将实例分割任务分成两个并行的过程:1.产生一系列的模板mask。2.预测每个实例mask的系数。之后将模板mask和实例mask系数进行线性组合来获得实例的mask,在此过程中,网络学会了如何定位不同位置、颜色和语义实例的mask。
目前的实例分割方法聚焦于精度而不是速度,本文的目标是建立快速的单级实例分割模型。两级实例分割像Mask RCN在模板mask上非常依赖于特征定位准确与否(将roi pooling换为roi align),单级的实例分割方法如FCIS是并行的,但是引入inside/outside score maps处理定位问题,仍然达不到实时性的要求。
本文的主要内容就是在单级目标检测网络基础上添加一个mask分支,但是不包含特征定位步骤(如roi align)。
在这里插入图片描述
对于Prediction Head部分下面这张图表达地更清楚:
在这里插入图片描述
**我的理解是:**基网络增加一个分支输出“prototype mask”,原目标检测分支增加mask coefficients的输出。
可以这样做的原因是卷积层可以保持特征相关性,它的输出可以作为mask,而fc层在产生语义向量上有优势,适合产生mask coefficients。
因为模板mask和mask coefficients的计算是可以分别进行的,所以检测器的主要计算就花费在两者的组合上,但这可以用用单个矩阵相乘来实现。这样一来,可以在特征域上保持空间相关性的同时保持单级网络的快速性。
基网络最后一输出有k个channel,每个channel对应一个mask,目标检测过程增加一个分支计算k个mask系数。
将产生模板的分支和产生mask系数的分支使用线性组合的方法进行结合,并对组合结果使用Sigmoid非线性化来获得最终的mask,该过程可以用单个矩阵相乘的方法来高效实现。

损失函数:
1.分类损失Lcls
2.边界框回归损失Lbox
3.mask损失Lmask = BCE(M,Mgt),M是预测mask,Mgt是真实的mask,公式为两者像素级二进制交叉熵。

传统NMS:
1.将所有框的得分排序,选中最高分及其对应的框
2.遍历其余的框,如果和当前最高分框的IOU大于一定阈值,就将框删除
3.从未处理的框中继续选一个得分最高的,重复上述过程
Fast NMS:
1.对每一类的得分前n名的框互相计算IOU,得到cxnxn的矩阵X(对角矩阵),对每个类别的框进行降序排列。
2.其次,通过检查是否有任何得分较高的框与其IOU大于某个阈值,从而找到要删除的框,通过将X的下三角和对角区域设置为0实现。这可以在一个批量上三角中实现,之后保留列方向上的最大值,来计算每个检测器的最大IOU矩阵K。
3.最后,利用阈值t(K<t)来处理矩阵,对每个类别保留最优的检测器。

### 回答1: Deep Snake是一种用于实时实例分割的算法。它基于深度学习技术,通过对图像中的每个像素进行分类,实现对目标物体的精确分割。Deep Snake算法具有高效性和准确性,可以应用于许多领域,如自动驾驶、医学影像分析等。 ### 回答2: DeepSnake是一个用于实时实例分割的新型神经网络模型。与传统的基于卷积神经网络(CNN)的实例分割方法不同,DeepSnake使用自适应的密集曲线组件,来更好地关注目标对象的形状特征,从而实现更精确的分割结果。 DeepSnake的设计基于一种称为“变形回归”的曲线回归方法。该方法使用两个CNN分支,来分别处理图像区域和曲线参数,然后将它们组合起来进行端到端的训练。其中,图像分支出自用于目标检测任务的ResNet,而曲线分支则采用了U-Net结构。 DeepSnake的优点在于可以克服目标形状多样性和大小变化等问题,能够适应各种不同的数据集,并且在计算效率上具有很高的实时性。与一些竞争的实例分割算法相比,DeepSnake在准确率和速度上都有不错的表现。在PASCAL VOC 2012和COCO 2017数据集上测试,DeepSnake的性能超过了相同条件下的大多数算法,同时具有更低的计算成本。 总之,DeepSnake为实时实例分割任务提供了一种创新的方法,可以应用于许多领域,如智能监控、自动驾驶和机器人导航等。 ### 回答3: Deep Snake是一种用于实时实例分割的新型神经网络架构,由来自华盛顿大学的研究团队开发。与目前主流的神经网络架构Mask R-CNN相比,Deep Snake的优势在于能够更加准确地分割物体,同时在速度和计算资源消耗方面表现更好。 具体来说,Deep Snake使用了一种名为“蛇形控制器”的新型机制来协调具有各自目标的多个神经元。这种机制使得网络在提取图像中物体的轮廓信息时更加准确。Deep Snake还采用了特殊的分组卷积层,用于在不同的尺度上提取特征,以更好地分割物体。 此外,Deep Snake还可以使用相对较少的内存和计算资源,快速运行实例分割任务。研究者使用COCO数据集进行了实验,结果表明Deep Snake在准确率和速度方面都优于Mask R-CNN。在单个Nvidia 1080Ti GPU上,Deep Snake可以实现每秒5.7帧的实时实例分割,准确率高达33.6%。 总的来说,Deep Snake是一种非常有潜力的神经网络架构,可用于实时实例分割。它不仅可以提高准确性,还可以节省计算资源和实现更快的运行速度。未来,深度学习的研究者将继续探索和改进这种架构,以满足不断发展的实时实例分割需求。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值