RTFNet：用于城市场景语义分割的RGB和红外融合网络

最新推荐文章于 2024-08-19 10:12:43 发布

Change_ZH

最新推荐文章于 2024-08-19 10:12:43 发布

阅读量5.2k

点赞数 9

分类专栏：深度学习文章标签：神经网络 pytorch 深度学习

本文链接：https://blog.csdn.net/qq_36449741/article/details/104714721

版权

深度学习专栏收录该内容

60 篇文章

订阅专栏

📝论文下载地址

[RTFNet论文地址]

🔨代码下载地址

[GitHub-unofficial本人所写非官方代码，基于Pytorch]

👨‍🎓论文作者

Yuxiang Sun, Weixun Zuo and Ming Liu,Senior Member, IEEE

📦模型讲解

[背景介绍]

这里和之前的数据融合博文一样，都是说明RGB和红外图像的特点。大家可以取最后的传送门访问。

[论文解读]

作者采用Encoder-Decoder的设计概念。在两个编码器中的ResNet在用于特征提取。开发了一种新的解码器以恢复特征图分辨率。

[总体结构]

作者提出了一种称为RTFNet的新型深度神经网络，用于城市场景的语义分割。下图展示了RTFNet的总体架构。

RTFNet由三个模块组成：分别用于从RGB和热图像中提取特征的RGB编码器和红外编码器；用于恢复特征图分辨率的解码器。编码器和解码器区域对称设计。在RTFNet的末尾，作者使用softmax层来获取语义分割结果的概率图。

[Backbone]

作者使用5种ResNet作为Backbone，RTFNet-18、RTFNet-34、RTFNet-50、RTFNet-101和RTFNet-152分别对应ResNet-18、ResNet-34、ResNet-50、ResNet-101和ResNet-152。Backbone输出的通道数下表所示ResNet50的输出应该为2048通道，这里可能作者写错了？：

[编码器]

作者设计了两种编码器，分别从RGB和红外图像中提取特征。除第一层中的输入通道数量外，两个编码器的结构彼此相同。作者使用ResNet作为特征提取器。为了避免特征图空间信息的过多丢失，删除了ResNet的平均池和完全连接的层。这也有助于减小模型尺寸。

ResNet从一个初始块开始，该块依次包括卷积层，BN层和ReLU。由于ResNet是使用3通道RGB图像设计的，因此作者将红外编码器的初始块中卷积层的输入通道数修改为1。在初始块之后，依次采用最大池化层和四个残差层来逐渐降低分辨率和增加要素地图的通道数。

通过逐像素求和对RGB和红外特征图进行融合，融合后特征图形状不会更改。如上图所示，作者将融合层放置在ResNet的每个block的后面。最后融合层的输出用作解码器的输入。

[解码器]

解码器主要用于获得语义分割的结果。通过解码器，特征图的分辨率逐渐恢复为输入图像的分辨率。作者提出一个称为Upception的网络模块。它由两个子块组成：A和B。A保持分辨率和特征映射通道数不变。B增加分辨率并减少特征图的通道。

上图展示了Upception块的体系结构。在A中，存在3个卷积层，通过它们不改变特征通道的分辨率和数量。作者引入直通的结构，输入和卷积层输出特征图是按元素进行相加的。
在B中，第一卷积层保持分辨率不变，并将特征通道数减少2倍。第二卷积层保持分辨率和特征通道数不变。转置卷积层1保持通道数不变并且将分辨率提高了2倍，因此需要转置卷积层2以提高输入分辨率并减少特征通道数后进行求和。

上表是具体结构，一层解码层是由A、B串联组成，总共有5层解码层，其中(1-4)代表前4层解码层的参数， $c 、 h 、 w$ 是特征图的通道数，高和宽。在(5)也就是第五层解码层中A与(1-4)一致，所以作者在表中省略了。(5)层的B中输出 $n$ 是语义分割的类别数。

[结果分析]

[数据集]

作者选择[Multispectral Image Recognition-RGB红外语义分割]数据集，该数据集包含1569对RGB和热图像，其中白天拍摄820对，夜间拍摄749对。有9种手工标记的语义类，包括未标记的背景类。数据集中的图像分辨率为480×640。
训练集由50％的白天图像和50％的夜间图像组成。验证集由25％的白天图像和25％的夜间图像组成，其他图像用于测试。

作者使用带有CUDA 8.0和cuDNN 7.0库的PyTorch0.4.1实现RTFNet。RTFNet在配备Intel 3.6GHz i7 CPU和单个NVIDIA 1080 Ti显卡的PC上进行了训练。由于显卡内存限制为11 GB，因此会针对不同网络调整批量大小。作者使用PyTorch提供的ResNet预先训练的权重来训练RTFNet，但红外编码器中的ResNet的第一卷积层除外。使用随机梯度下降（SGD）最优化求解器训练。动量和权重衰减分别设置为0.9和0.0005。初始学习率设置为0.01。

[评估指标]

作者采用两个指标对这些语义分割性能进行定量评估。第一个是每个类别的Accuracy（Acc），也称为召回率。第二个是每个类的交并比（IoU）。两个指标的所有类别的平均值分别表示为mAcc和mIoU。它们以公式计算：
$\mathrm{m} \mathrm{Acc}=\frac{1}{N} \sum_{i=1}^{N} \frac{\mathrm{TP}_{i}}{\mathrm{TP}_{i}+\mathrm{FN}_{i}}$ $\mathrm{mIoU}=\frac{1}{N} \sum_{i=1}^{N} \frac{\mathrm{TP}_{i}}{\mathrm{TP}_{i}+\mathrm{FP}_{i}+\mathrm{FN}_{i}}$
其中 $N$ 是类别数。在作者的实验中 $N = 9$ ，包括未标记的背景类。 $TP_i = \sum_{k=1}^{K}P^k_{ii}$ ， $FP_i=\sum^K_{k = 1}∑^N_{j = 1,i≠j}P^k_{ji}$ ， $FN_i = ∑^{K}_{k = 1} ∑^N_{j = 1，j= i}P^k_{i j}$ 是每一类 $i$ 的真阳性，假阳性和假阴性，其中 $K$ 是测试帧的数量， $P^k_{ii}$ 是在第 $k$ 帧中被正确分类为 $i$ 类的像素数， $P^k_{ji}$ 是在第 $k$ 帧中被错误分类为 $i$ 类的 $j$ 类的像素数， $P^k_{i j}$ 是类别 $i$ 在帧 $k$ 中被错误分类为类别 $j$ 的像素数。

[模型有效性研究]

作者首先对比编码器，仅使用RGB图像不使用红外的模型为NTE，不使用RGB图像仅使用红外的模型为NRE，与RTFNet对比。之后是解码器，使用简单的解码层进行解码，又单一的转置卷积、BN和ReLU组成，同样由5层解码层构成解码器，为NUB。与使用Upception结构的RTFNet比较。

上图展示了结果。通常，当使用具有更多层的ResNet作为编码器时，性能会更好。特别是，从ResNet-34到ResNet-50，性能得到了极大的提高。但是，比ResNet-50多的层不能为性能改进做出太多贡献。
通过比较NRE和NTE的结果，作者发现NRE通常可以提供更好的性能，但它们均不如RTFNet。这证明了数据融合是提高性能的有效方法，并且热信息在数据融合中起着重要作用。通过与NUB进行比较，发现作者提出的Upception在RTFNet中起着重要作用，因为如果没有它，性能会显著下降。

上表展示了白天和夜间场景中NRE和NTE的测试结果。仅在白天情况下使用RGB信息会产生更好的结果，而在夜间情况下仅使用热信息会带来更好的结果，因为RGB图像在白天更具参考价值，而热图像在夜间更具参考价值。

为了证明作者融合的有效性。作者从RTFNet中删除除最后一层以外的融合层。，将此变体称为OLF（仅最后融合层）。还删除了热编码器并修改了RGB编码器，以将4通道RGB红外图像作为输入。 4通道数据是通过将3通道RGB数据与1通道热数据简单连接而获得的。此变体称为FCI（四通道输入）。上表展示了比较结果。RTFNet在mAcc和mIoU方面均取得了最佳结果。