[小样本图像分割]One-Shot Learning for Semantic Segmentation（OSLSM）

最新推荐文章于 2024-10-14 11:22:35 发布

XL_Dylan

最新推荐文章于 2024-10-14 11:22:35 发布

阅读量3.2k

点赞数 2

分类专栏：小样本图像分割文章标签：深度学习机器学习计算机视觉

本文链接：https://blog.csdn.net/qq_38932073/article/details/115045436

版权

小样本图像分割专栏收录该内容

18 篇文章

订阅专栏

用于图像分割的单样本学习（BMVC2017）

本文算是小样本学习的经典之作，虽然以现在的角度来看比较粗糙，但仍然值得学习！

本文的方法说白了就是利用高维参数来进行比较（而不是像现今的大多数方法是利用特征匹配的思想），因此依赖于权重哈希来防止过拟合。本文的方法现在基本淘汰，但它无疑开创了小样本分割的先河。

论文地址
 开源代码

概述

本文从few shot学习中得到启发，提出了一种新的双分支的一次性语义图像分割方法。第一个分支将标记的图像作为输入，并生成参数向量作为输出。第二个分支接受这些参数和一个新图像作为输入，并为新类生成图像的分割掩码作为输出。
在这里插入图片描述
本文贡献：
1）提出了一种新的单样本分割技术，该技术在快速分割的同时优于基线；2）该技术可以在不为新类添加弱标签的情况下做到这一点；3）即使只有少数类具有较强的标注，元学习也能有效地进行；4）在PASCAL上为具有挑战性的k-shot语义分割任务建立了基准。

问题设置

值得注意的是，本论文提出的OSLSM的问题设置在后面的很多小样本分割任务中都被沿用，所以这里给出完整设置。

支持集（support set）设为 $S=\left\{ \left( I_{s}^{i},Y_{s}^{i}\left( l \right) \right) \right\} _{i=1}^{k}$ ，指的是 $k$ 个图像----掩码对（ image-binary mask pairs）的一个小集合（少量样本）。其中 $Y_{s}^{i}\in L_{test}^{H\times W}$ 指的是图像 $I_{s}^{i}$ 的分割注释， $Y_{s}^{i}\left( l \right)$ 指的是第 $i$ 个图像对语义类 $l\in{L_{test}}$ 的掩码。目的是学习一个模型 $f(I_q,S)$ ，当给定一个支持集 $S$ 和查询图像 $I_q$ 时，预测一个对语义类 $l$ 的掩码 $\hat{M}_q$ .

在训练过程中，使用了大量的图像----掩码对 $D=\left\{ \left( I^j,Y^j \right) \right\} _{j=1}^{N}$ ，其中 $Y^j\in L_{train}^{H\times W}$ 是训练图像 $I^{j}$ 的语义分割掩码。在测试过程中查询图像只针对新的语义类进行了注释，也就是 $L_{train}\cap L_{test}=\oslash$ 。这是与典型图像分割的关键区别，在典型图像分割中，训练和测试类是相同的。

方法

第一个分支输入支持集中带标签的图像，准确地说是输入图像标签对 $S=(I_s,Y_s(l))$ 来产生一组参数：
$w,b=g_{\eta}\left( S \right)$
在另一个分支上，使用参数嵌入函数 $\phi$ （这里指的似乎就是FCN之类的backbone）来从查询图像 $I_q$ 中提取特征。设 $F_q=\phi _{\zeta}\left( I_q \right)$ 是从 $I_q$ 中提取的feature volume，则 $F_{q}^{mn}$ 指的是空间位置 $(m, n)$ 上的特征向量。然后使用第一层的参数对特征进行像素级逻辑回归，得到最终的mask.
在这里插入图片描述
其中 $\sigma \left( \cdot \right)$ 指的是sigmoid函数， $\hat{M}_q^{mn}$ 表示在坐标 $(m, n)$ 处的预测掩码值。最后将预测掩码通过双边线性插值的方式进行上采样，恢复到原图尺寸，然后以0.5为阈值对查询图片进行掩码操作得到分割图像。
在这里插入图片描述