zoom-out: Feedforward semantic segmentation with zoom-out features-CSDN博客

本文链接：https://blog.csdn.net/dcz1994/article/details/88881516

zoom-out:

zoom-out和缩小图形是有区别的. zoom即改变视距. zoom-out是将视距放大, 即离事物远一点去观察事物, 所以事物看到确实会缩小. 另一方面, 计算中的图形缩小却代表的是视距不变, 而是将形状缩小. 对于平面物体两者差别不大, 但是对于一个三维物体, 情况就会不同: 在改变视距的情况下, 在被观察到的物体中, 距离近的大小相对变化大, 距离远的物体相对变化小.

Abstract

本文运用了超像素表示法进行图像分割. 主要方案是: 通过缩小图像到场景级分辨率(也就是超像素), 然后从不同的区域规模中提取特征并且叠加, 从而使用结构化预测机制, 最终超像素被前馈多层网络分类. 避免了复杂的计算和昂贵的推理.

1. Introduction

语义分割具有挑战的地方: 相邻和远距离图像元素之间的复杂交互，全局上下文的重要性，以及语义标记和实例级检测之间的相互作用。一般认为, 分割是一个结构预测任务, 多采用复杂的随机场或者SVM来解决.

这又带来另一些模型的推理和学习问题, 缓解方法是预处理或者少两阶段为图像生成可以管理数量的假设区域. 然后在减小评分,组合.

本文使用single-stage分类任务处理语义分割, 其中每个超像素是被前馈网络标记.这些方法的依赖是从超像素到周围的小区域, 再到较大的区域, 一直到整个图片, 把这些层的特征组合, 因而无需再复杂模型中明确的编码他们. 但是本文也没有丢弃结构化预测, 这些方法会成为本文架构的补充. 本篇论文讨论的是没有结构化模型的情况下最优性能是什么.

使用CNN从大的缩小区域提取特征. 2012年CNN的崛起并没有给分割任务带来很大的改变, 主要原因怎么把CNN这种固有的非结构化分类和回归引用到结构化预测的框架中. 本文中提出利用CNN的表达能力, 通过将分割框架华为分类并使其结构化他不利的一方面.

2. Zoom-out 特征融合

本文使用了SLIC方法生成超像素, 达到相同类别的超像素性质相似, 大小相同, 以超像素分类的目的.

2.1 zoom-out特征的范围

我们的缩放架构的主要思想是允许从超像素周围不同级别的空间上下文中提取的特征有助于在该超像素处进行标记决策. 为此定义了4个空间范围.

2.1.1 Local zoom (close-up)(局部视距)

最窄的范围是超像素本身, 从这里提取局部特征: 颜色, 纹理, 梯度等. 相邻超像素局部特征可能差别很大(特别是跨类或对象边界处).

2.1.2 Proximal zoom(近距离视距)

能够捕获物体边界处的信息, 可以更好捕获对于具有非均匀外观的类的特征分布. 缺点是还是太近, 不能自信的说明物体存在. 而一些区域可能存在平滑.

2.1.3 Distant zoom(远距离视距)

缩小到包括目标的大多数或者整个目标. 这个级别可以获得形状, 颜色和梯度更复杂的表现, 空间布局. 因此可以获得更复杂的特征. 也可以提取到当前类和附近类的重要区域. 比如一个人坐在椅子上, 桌子上的瓶子.

2.1.4 Global zoom(全局视距)

整个图像的特征抽取, 捕获图片的种类. 代表图片级分类, 确定场景中的类别是否存在从而知道分割. 同时对于分类有用的特征可以直接用于全局对于局部标记的支持. 比如在图片中大量的绿色支持对于一个非绿色的像素标记为牛羊而不是标记为桌子椅子.

2.2. Learning to label with asymmetric loss

对于图片I中的超像素s, 合并的特征向量为:

Ys表示超像素s的标签.

由于标签数量不平均, 常见方法是对训练数据进行分层(实际就是丢弃大量数据), 本文使用了全部的数据, 但是更改了损失.

设类别c的频率是fc. sum(fc) = 1. 则损失为

优点是不改变损失的凸性(???), 只需要优化一下代码(比如反向传播).

3. Related work

当前一些卓越的分割方法依赖对应像素或超像素节点上的CRF. 这些模型在一元势能函数中聚合了局部的证据, 而标签分配之间的相互影响(就是标签之间的后验信息)是通过成对的或者更高阶的势能捕获的. 相比, 本文是让缩小的特征(在CRF中称之为一元势能)去捕获高阶结构.

另一些当前流行的方法是多尺度方法: 先用一些机制去提取一个proposals regions集合. 然后根据区域与目标类的兼容性对其进行评分或排序.

这些工作都证实了上下文背景和非局部证据的重要性.

接下来论文讲了一些现存的方法以及和本文的方法的相似处: 相同的卷积应用于图像的不同分辨率, 并与超像素上的树形结构图组合以实现平滑; 应用多个级别的特征(手工制作); 残量网络; 在不同的级别使用不同的特征提取器; 对最后一层和中间预测相加的结构上采样(这和本文不同的是, 这里融合不同的层, 但是本文跟多的是关注更多不同的特征);通过汇集从像素周围的嵌套区域提取的证据来形成超列;

4. Experiments

datasets:PASVAL VOC(20+1类).

评估: IoU

4.1. Superpixels and neighborhoods

通过SLIC算法在每个图片获取了大约500个超像素. m=15控制空间和颜色的接近度, 一般是产生形状的规则, 但是颜色证据强烈时, 也就坚持局部边界. 超像素的平局像素=21X21像素.

proximal region 是指半径为2个超像素的区域(即s的直接邻居和邻居的直接邻居), 平均大小一般为100X100像素(即5X21~100).

Distant region 是指s所有的邻居上到3度, 由围绕这些邻居的边界框组成, 他形状总是矩形; 平均大小是170X170像素(怎么算出来的???)

4.2. Zoom-out feature computation

根据缩放等级, 提取特征提取是不同的.

使用了一些众所周知的特征之外还使用了一些学习特征!

Color

分别计算L,a,b颜色三通道的直方图(SLIC based on CEILAB color spatial). 使用32bins和8bins(直方图bins), 用相等的空间bins. 产生120维特征. 还计算每32bin直方图的熵作为额外的特征(+3维). 最后还是用了自适应binning重新计算直方图(+120)

Texture

64个纹理字典+1个直方图的熵 = 65个和纹理相关的通道.

SIFT(SIFT还没怎么研究, 直接粘贴翻译了~~)

对于每个L * a * b通道，分别在8和18像素块上的规则网格（每8个像素）上计算描述符. 所有描述符都分配给500个视觉单词的字典。得到的分配直方图在每个通道中对两个像素块大小进行平均，产生总共1500个值，加上直方图的熵的6个值。

Location

通过计算相对于中心的图像标准化坐标以及从中心的偏移（坐标的绝对值）来编码超像素的位置;这会产生四个特征值。

Local convnet

使用卷积学习超像素的表示.用3个(conv+pooling+RELU)层的网络训练, 分别32, 32, 64个滤波器(通道). 之后两个FC层(每层1152个神经元)+softmax层. input是超像素的边界框, 大小调整为25X25像素, pading到35X35. conv kernel size=5X5. pooling size = 3X3, stride=2. softmax输出21维特征(怎么搞得???). 另一个具有相同体系结构的网络接受了前景类和背景类的二进制分类的培训.

4.2.2 Proximal features.

使用和上一步相同的手段, 产生1818维特征

4.2.3 Distant and global features

使用<Return of the devil in the details: Delving deep into convolutional nets>里提到的线softmax 模型CNN-S提取远距离和全局特征: 5个conv层, 3个接着pooling, 2个FC. 将远距离区域或者全局图像调整到224X224输入网络.用4096个神经元记录最后的激活值. 随后的一组实验使用VGG-16(网络使用ImageNet训练的, 并且没有任何改动VOC数据).