《Reviving Iterative Training with Mask Guidance for Interactive Segmentation》论文笔记

最新推荐文章于 2024-08-28 09:15:54 发布

m_buddy

最新推荐文章于 2024-08-28 09:15:54 发布

阅读量1.6k

点赞数

分类专栏：图像&视频分割文章标签：交互式分割

本文链接：https://blog.csdn.net/m_buddy/article/details/115285213

版权

本文介绍了无需反向传播的交互式分割技术，通过结合用户点击和前次预测mask来提高分割准确性。研究了网络结构、交互采样策略、先验信息融合及归一化焦损失函数(NFL)对性能的影响。实验证明了所提方法的有效性。

摘要由CSDN通过智能技术生成

参考代码：ritm_interactive_segmentation

1. 概述

导读：这篇文章提出了一种无需back propagation的交互式分割方法，只需要提供简单的点击进行分割，在一次点击交互性能不满足的情况下还可以使用上一次的预测mask加上当前次的点击交互进行弥补。这篇文章于一般来讲的交互式分割方法差异不大（都是在分割网络的基础上进行改进而来），但是在细节的处理上比较恰当，如交互先验信息的引入方式/损失函数优化/交互先验信息如何融合等进行了讨论。此外，训练数据的质量和数据量也是影响性能的很关键部分，文章中作者使用了LVIS和COCO数据集。

使用文章的方法进行交互式分割，其使用过程可以参考下图所示：
在这里插入图片描述

2. 方法设计

2.1 网络结构设计

交互式分割算法一般会采用传统上的分割网络作为baseline，如DeepLabV3+/HRNet+OCR，在此基础上添加交互式分割需要的对应网络模块。
对于交互式分割的backbone选择，作者是更加倾向于使用HRNet的，而不是ResNet，从实验的结果可以看出，其在性能表现上更好：
在这里插入图片描述

交互式信息的编码：
文章中采用的交互式分割信息来自于点采样，对于这些点采样信息的表达，主要分为两种方法：2D的高斯分布（DT，distance transform）/一定半径的点（Disk，disk with a fixed radius），可见下图所示：
在这里插入图片描述
对此，文章进行对比实验，两种交互信息的编码方式对性能的对比，实验结果指出后者是好于前者的，见下表所示：

交互信息的融合方式：
一般来讲ImageNet上预训练得到的模型输入的channel是3通道的，但是交互式分割中其需要的输入信息却不是3通道的（外加交互信息），对此一般情况下会将第一个卷积增加对应的channel数量，之后进行特征融合，见图3的Conv1E融合方式。
在这里插入图片描述
但是这样的融合方式真的是对好的吗？对此，文章提出了两种变形DMF和Conv1S，其对性能的影响见上文中的表1所示。

2.2 交互中的采样策略

在之前的交互式分割算法中，是随机地选择正负样本，其选择的过程并没有考虑它们之间的相关性，而在实际过程中是需要通过之前一系列采样的结果针对性去选择那些错分区域，从而提升分割的性能也将上一步的结果得以引入当前步的优化过程中。但是对于采样的策略文章也做了一些优化方法：

1）之前的方法会选择那些错误区域的中心位置作为采样点，但是在实际的交互过程中是很难满足的，因而当用户在选择那些边界上点作为新的采样之后会导致较差的结果和结果的不稳定。对此文章是将错误的区域进行形态学腐蚀，之后去选择腐蚀之后区域中的点；
2）在每个训练batch中随机地去选择采样点，因而在 $N_{iters}$ 次采样过程中，采样都不是固定的，从而带来了更好的性能；