【论文精读】Superpixel Sampling Networks（SSN）

最新推荐文章于 2023-10-25 10:07:15 发布

Jiazhou_garland

最新推荐文章于 2023-10-25 10:07:15 发布

阅读量3.4k

点赞数 9

分类专栏：超像素

本文链接：https://blog.csdn.net/qq_43019433/article/details/115822628

版权

超像素专栏收录该内容

2 篇文章 0 订阅

订阅专栏

【论文精读】Superpixel Sampling Networks

Abstract
1和2部分懒得翻译
3 复习SLIC
4 Superpixel Sampling Networks（SSN）
5. Experiments

本文原文链接

原文：Jampani, V., Sun, D., Liu, M. Y., Yang, M. H., & Kautz, J. (2018). Superpixel sampling networks. In Proceedings of the European Conference on Computer Vision (ECCV) (pp. 352-368).

Abstract

超像素为图像数据提供了一种高效的低/中级表示方法，大大减少了后续视觉任务所需的图像基元数量。现有的超像素算法是不可微的，这使得它们很难集成到端到端可训练的深层神经网络中。我们开发了一个新的可微分超像素采样模型，利用深度网络学习超像素分割。结果表明，该超像素采样网络（SSN）是端到端可训练的，它允许学习具有灵活损失函数的任务特定超像素，运行速度快。大量的实验分析表明，SSN不仅在传统的分割基准上优于现有的超像素算法，而且可以学习其他任务的超像素。此外，SSN可以很容易地集成到下游深度网络中，从而提高性能。

1和2部分懒得翻译

详见原文

3 复习SLIC

Pixel-Superpixel association：将每个像素与五维空间中最近的超级像素中心相关联，即判断每个像素p属于哪个新的超像素中心

$D$ 表示计算距离： $D(a,b)=||a-b||^{2}$ ；注意由于在等式1中计算所有像素和超级像素之间的距离D是耗时的，因此该计算通常被限制在每个超像素中心周围的固定邻域内。
$H_{p}^{t}$ 大小为n*m，表示第t次迭代时，原图第 $p$ 个像素是否属于第 $i$ 个超像素
$I_{p}$ 表示原图第 $p$ 个像素
$S_{i}^{t-1}$ 表示第 $t - 1$ 次迭代时，第 $i$ 个超像素中心
Superpixel center update：计算每个超像素内的平均像素特征（XY+Lab）以获得新的超像素中心 $S^{t}$ 。

$S_{i}^{t}$ 表示第t次迭代时，第 $i$ 个超像素中心
$I_{p}$ 表示原图第p个像素
$Z_{i}^{t}$ 超像素 $i$ 的像素个数
$p|H_{p}^{t}$ 表示第t次迭代时，属于超像素 $i$ 的像素 $p$
重复1、2步，直到收敛或进行固定次数的迭代。

4 Superpixel Sampling Networks（SSN）

在这里插入图片描述
SSN由两部分组成：一个生成像素特征的深度网络，然后将其传递给可微SLIC。

4.1 可微SLIC算法

为什么SLIC不可微?
答：问题出在Pixel-Superpixel association的计算（公式1），涉及不可微的最近邻运算。
解决方案：修改Pixel-Superpixel association从硬距离 $\in \{0,1,...,m-1\}^{n*1}$ 变成软距离 $\in R^{n*m}$ ；变不可微为可微分。

Soft Pixel-Superpixel association：

$Q_{pi}^{t}$ 表示第t次迭代时，属于超像素 $i$ 与像素 $p$ 的软连接；
$I_{p}$ 表示原图第p个像素
$S_{i}^{t-1}$ 表示第t-1次迭代时，第 $i$ 个超像素中心
$D$ 表示计算距离： $D(a,b)=||a-b||^{2}$
Superpixel center update：

$S_{i}^{t}$ 表示第t次迭代时，第 $i$ 个超像素中心
$I_{p}$ 表示原图第p个像素
$Q_{pi}^{t}$ 表示第t次迭代时，属于超像素 $i$ 与像素 $p$ 的软连接；
$Z_{i}^{t}=\sum_{p}Q_{pi}^{t}$ 为归一化常数

将上述公式（4）矩阵化：
$S^{t}={\hat{Q^{t}}}^{T}I$
其中 $\hat{Q^{t}}$ 表示列归一化的 $Q^{t}$ 。

其次， $Q$ 的大小是n×m，即使对于少量的超像素m，计算所有像素和超像素之间的 $Q_{pi}$ 也是非常昂贵的。因此，我们将每个像素的距离计算限制为仅9个周围的超像素，如下图中红色和绿色框所示。
在这里插入图片描述

对于绿框中的每个像素，仅考虑红框中周围的超级像素来计算关联。这将 $Q$ 的大小从n×m降到n×9，使得它在计算和内存方面都非常有效。 $Q$ 计算中的这种近似在本质上类似于SLIC中的近似近邻搜索。

总算法流程：用深度网络计算的k维像素特征 $F_{p} \in R^{n*k}$ 来代替上述等式3和4中的图像特征 $I_{p}$ 。
在这里插入图片描述

一个关于后续计算损失函数的问题：像素和超像素如何映射？
答：
超像素至像素： $S=\hat Q^{T}I$ ，其中 $\hat Q$ 表示列归一化的 $Q$
像素至超像素： $F=\tilde Q S$ ，其中 $\tilde Q$ 表示行归一化的 $Q$

4.2 SSN网络架构

在这里插入图片描述
CNN由一系列卷积层、卷积层、BN和ReLU交织组成，整个网络可以进行端到端的训练：

在第二和第四卷积层之后，使用最大池（max-pooling），将输入的样本减少2倍，以增加感受野。
对第四和第六卷积层输出进行双线性上采样，然后与第二卷积层输出串联以传递到最终的卷积层。
用3× 3卷积滤波器，每个层的输出通道数设置为64个，但最后一个输出k− 5个频道。
连接这个k− 5通道与XY Lab图像原始特征，得到k维像素特征。
产生的k维特征被传递到可微SLIC的两个模块上，这两个模块迭代地更新像素超像素关联和v迭代的超像素中心。

4.3 损失函数：学习任务特定的超像素

Task-specific reconstruction loss：

$\in R^{n*l}$ 表示像素特征，比如说R可以表示为语义分割标签或者光流图；
素特征映射至超像素特征： $\tilde R=\hat Q^{T}R$ ，其中 $\hat Q$ 表示列归一化的 $Q$ ， $\tilde R \in \tilde R^{m*l}$
超像素特征映射至像素特征： $R^{*}=\tilde Q S$ ，其中 $\tilde Q$ 表示行归一化的 $Q$
$\mathcal{L}$ 表示特定任务的损失函数，对于分割任务，使用交叉熵损失，对于光流，使用L1范数。
Compactness loss：

$R^{xy}$ 表示像素位置特征；
像素位置特征映射至超像素位置特征： $S^{xy}=\hat Q^{T}I^{xy}$
超像素位置特征映射至像素位置特征： $\overline I^{xy}=S_{i}^{xy}|H_{p}=i$ ；其中 $H_{p}$ 表示硬位置距离
总损失函数：
$L=L_{recon}+\lambda L_{compact} \tag{7}$
其中本实验中 $\lambda =10^{-5}$

4.4 实现与实验参数设定

原文code
实现：Caffe=+Python
输入: xy坐标 + Lab（scaled）；
γpos表示位置；γcolor表示颜色；
γcolor的值与超级像素的数量无关，设置为0.26，颜色值介于0和255之间。
γpos的值取决于超级像素的数量，γpos=η * max（mw/nw，mh/nh），其中mw，nw和mh，nh分别表示沿图像宽度和高度的超级像素和像素的数量。实践中，η=2.5表现良好。
训练网络输入:201×201的图像块，100个超级像素。
数据增强：左右翻转；对于小型BSDS500数据集：随机缩放图像块。
优化器 Adam，batch为8，学习率为0.0001。训练次500K迭代，并根据验证精度选择最终模型。
消融实验：200K次迭代，缩放上述输入位置特征来估计不同数量的超像素
可微SLIC训练：5次迭代（v=5）进行训练，测试时10次迭代，因为更多的迭代收益有限

5. Experiments

5.1 Learned Superpixels

数据集：BSDS500
损失函数：重建损失中使用GT分割标签（等式5）。具体地说，将每个图像中的GT分割表示为一个热编码向量，并将其作为重建损失中的像素属性R。 $\mathcal{L}$ 为交叉熵损失函数。
评价指标：Achievable Segmentation Accuracy (ASA) + Boundary Recall (BR) + Boundary Precision (BP)
ASA表示对超像素进行下一步的分割步骤可达到的精度上限。BR、BP度量超级像素边界与GT边界的对齐程度。
其次，对边界精度和召回的公平评估期望超像素在空间上是连接的。因此，计算hard clusters并在SSN超像素上强制执行空间连接性（算法1中的第7-8行）。
消融实验：
$SSN_{deep}$ ：main model ：7卷积层神经网络
$SSN_{linear}$ ：用一个卷积层代替了深层网络，学习XY+lab线性变换
$SSN_{pix}$ ：可微SLIC算法，以像素XY+lab特征

结果表明，ASA和BR的得分随着深度网络的增加而显著提高，随着特征维数k和可微 $S L I C$ 迭代次数v的增加而略有提高
出于计算原因，选择k=20和v=10，从这里开始，将此模型称为 $SSN_{deep}$
与其它算法对比

$SSN_{pix}$ 的性能类似于 $S L I C$ 超像素，表明当放松近邻约束时 $S L I C$ 的性能不会下降。 $SSN_{pix}$ 在ASA、BP、BR方面，对比其它超像素分割算法都有相当好的表现。

5.2 Superpixels for Semantic Segmentation

数据集：Cityscapes + PascalVOC
损失函数：与5.1相似，利用语义标签作为图像重建损失中的像素属性R
结果：
on Cityscapes :

on PascalVOC:

ASA和边界精确召回结果表明， $S S N$ 的性能优于其他技术
运行时间分析：在512×1024图像上计算1000个超像素用时
$SSN_{pix}$ 和 $SSN_{deep}$ 之间的运行时比较表明， $S S N$ 计算时间的很大一部分是由可微 $S L I C$ 引起的。运行时表明 $S S N$ 比几种超像素算法的实现速度要快得多
附加实验：将SSN与此文献中模型结合，与文献中使用的原始SLIC超像素相比，IoU的提升表明 $S S N$ 可以给使用超像素的下游任务网络带来性能改进。

5.3 Superpixels for Optical Flow

数据集：MPI-Sintel dataset
损失函数：GT光流作为重建损失中的像素属性R（等式5），并使用L1范数作为 $\mathcal{L}$ 损失函数
结果：

用不同类型的超像素获得的分段光流图像表明，与其他技术相比， $SSN_{deep}$ 超像素可以更好地表示GT光流。

Jiazhou_garland

关注

9
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
【论文精读】Superpixel Sampling Networks（SSN）

【论文精读】Superpixel Sampling NetworksAbstract4 Superpixel Sampling Networks（SSN）4.4 实现与实验参数设定Abstract4 Superpixel Sampling Networks（SSN）4.4 实现与实验参数设定原文code实现：Caffe=+Python输入: xy坐标 + Lab（scaled）；γpos表示位置；γcolor表示颜色；γcolor的值与超级像素的数量无关，设置为0.26，颜色值介于0和25
复制链接

扫一扫