语义分割的解码器问题：依赖数据的解码使灵活的特征聚集成为可能

最新推荐文章于 2024-05-29 00:53:33 发布

MichaelToLearn

最新推荐文章于 2024-05-29 00:53:33 发布

阅读量1.5k

点赞数

分类专栏：语义分割

本文链接：https://blog.csdn.net/hezhongla0811/article/details/100982711

版权

语义分割专栏收录该内容

6 篇文章 0 订阅

订阅专栏

语义分割的解码器问题：依赖数据的解码使灵活的特征聚集成为可能

Decoders Matter for Semantic Segmentation: Data-Dependent Decoding Enables Flexible Feature Aggregation

摘要

【背景】最近的语义分割方法利用编码器-解码器结构产生了想要的像素级别的分割预测。解码器的最后一层通常是一个双线性上采样过程，以恢复最终的像素基本的预测。我们经验上表明，这个过于简单且独立于数据的双线性上采样可能导向次最优结果。

【本文工作】本文中，我们提出了依赖数据的上采样(data-dependent upsampling, DUpsampling)代替双线性插值。利用了标签空间中的冗余信息，能够从CNN的低分辨率输出中覆盖像素级别的预测。新的上采样层的主要优点在于，很低的分辨率(如 $\frac{1}{16}$ 或者 $\frac{1}{32}$ )，我们能达到甚至更好的分辨率，并显著减少计算复杂度。原因：(1)新的上采样层很大程度上改善了重建能力。更重要的是(2)基于解码器的灵活性的DUpsampling使用了几乎任意的CNN编码器特征的组合。

【试验】在PASCAL VOC数据集上的实验表明，计算量更少，我们的解码器是最先进的解码器。最终，没有任何后处理的情况下，装配有我们提出的解码器的框架在两个数据集上取得了最优的结果：在PASCAL VOC上88.1%的mIOU，比之前最佳模型少了30%的计算量。在PASCAL Context上是52.5%的mIOU。

使用的框架

将原来的上采样，换成下图这种作者自己设计的DUpsampling：

上采样率通常是16或者32.

$F$ 是CNN的输出， $R$ 是最终的图。W代表设计的上采样算法：

超越双线性：依赖数据的上采样

首先看一下最简单的解码器：

$F\in\mathbb{R}^{\tilde{H}\times\tilde{W}\times\tilde{C}}$ ：编码器CNN的最终输出

$Y\in\{0,1,2,\cdots,C\}^{H\times W}$ ：ground truth标签图

$C$ ：分割类别数目

$\tilde{C}$ ：最终输出的通道数

$Y$ 通常被编码成one-hot，即变成 $Y\in\{0,1\}^{H\times W\times C}$ `，F通常是Y的16或32倍。

通常的损失函数是：
$L (F, Y) = L o s s (s o f t m a x (b i l i n e a r (F)), Y)$
Loss通常就是交叉熵损失，通过使用atrous卷积(带孔卷积)，尝试将 $Y$ 压缩成 $\in\mathbb{R}^{\tilde{H}\times\tilde{W}\times\tilde{C}}$ ，然后计算 $F$ 和 $Y$ 之间的损失。

通过简单的线性投影(linear projecting)就可以完成这个压缩。
$x=Pv;\tilde{v}=Wx,P\in \mathbb{R}^{\tilde{C}\times N}$
通过最小化 $v$ 和 $\tilde{v}$ 之间的重建误差得到 $P$ 和 $W$ ：
$\begin{array}{c}{\mathbf{P}^{*}, \mathbf{W}^{*}=\underset{\mathbf{P}, \mathbf{W}}{\arg \min } \sum_{v}\|\boldsymbol{v}-\tilde{\boldsymbol{v}}\|^{2}} \\ {=\underset{\mathbf{P}, \mathbf{W}}{\arg \min } \sum_{\boldsymbol{v}}\|\boldsymbol{v}-\mathbf{W} \mathbf{P} \boldsymbol{v}\|^{2}}\end{array}$
然后损失函数就变成了：
$L(F,Y)=||F-\tilde{Y}||^2$
但是作者没有这样压缩，而是上采样了 $F$ (❓❓❓)，接着计算 $F$ 和 $Y$ 的像素分类损失：
$L (F, Y) = L o s s (s o f t m a x (D U p s a m p l e (F)), Y)$
这个上采样，就是用一个1x1的卷积。

MichaelToLearn

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
语义分割的解码器问题：依赖数据的解码使灵活的特征聚集成为可能

语义分割的解码器问题：依赖数据的解码使灵活的特征聚集成为可能Decoders Matter for Semantic Segmentation: Data-Dependent Decoding Enables Flexible Feature Aggregation摘要【背景】最近的语义分割方法利用编码器-解码器结构产生了想要的像素级别的分割预测。解码器的最后一层通常是一个双线性上采样过程...
复制链接

扫一扫