RTFNet:用于城市场景语义分割的RGB和红外融合网络

📝论文下载地址

  [RTFNet论文地址]

🔨代码下载地址

  [GitHub-unofficial本人所写非官方代码,基于Pytorch]

👨‍🎓论文作者

Yuxiang Sun, Weixun Zuo and Ming Liu,Senior Member, IEEE

📦模型讲解

[背景介绍]

  这里和之前的数据融合博文一样,都是说明RGB和红外图像的特点。大家可以取最后的传送门访问。

[论文解读]

  作者采用Encoder-Decoder的设计概念。在两个编码器中的ResNet在用于特征提取。开发了一种新的解码器以恢复特征图分辨率。

[总体结构]

  作者提出了一种称为RTFNet的新型深度神经网络,用于城市场景的语义分割。 下图展示了RTFNet的总体架构。

  RTFNet由三个模块组成:分别用于从RGB和热图像中提取特征的RGB编码器和红外编码器;用于恢复特征图分辨率的解码器。编码器和解码器区域对称设计。在RTFNet的末尾,作者使用softmax层来获取语义分割结果的概率图。

[Backbone]

  作者使用5种ResNet作为Backbone,RTFNet-18、RTFNet-34、RTFNet-50、RTFNet-101和RTFNet-152分别对应ResNet-18、ResNet-34、ResNet-50、ResNet-101和ResNet-152。Backbone输出的通道数下表所示ResNet50的输出应该为2048通道,这里可能作者写错了?

[编码器]

  作者设计了两种编码器,分别从RGB和红外图像中提取特征。除第一层中的输入通道数量外,两个编码器的结构彼此相同。作者使用ResNet作为特征提取器。为了避免特征图空间信息的过多丢失,删除了ResNet的平均池和完全连接的层。这也有助于减小模型尺寸。

  ResNet从一个初始块开始,该块依次包括卷积层,BN层和ReLU。由于ResNet是使用3通道RGB图像设计的,因此作者将红外编码器的初始块中卷积层的输入通道数修改为1。在初始块之后,依次采用最大池化层和四个残差层来逐渐降低分辨率和增加要素地图的通道数。

  通过逐像素求和对RGB和红外特征图进行融合,融合后特征图形状不会更改。 如上图所示,作者将融合层放置在ResNet的每个block的后面。 最后融合层的输出用作解码器的输入。

[解码器]

  解码器主要用于获得语义分割的结果。通过解码器,特征图的分辨率逐渐恢复为输入图像的分辨率。作者提出一个称为Upception的网络模块。它由两个子块组成:A和B。A保持分辨率和特征映射通道数不变。B增加分辨率并减少特征图的通道。

  上图展示了Upception块的体系结构。在A中,存在3个卷积层,通过它们不改变特征通道的分辨率和数量。作者引入直通的结构,输入和卷积层输出特征图是按元素进行相加的。
  在B中,第一卷积层保持分辨率不变,并将特征通道数减少2倍。第二卷积层保持分辨率和特征通道数不变。转置卷积层1保持通道数不变并且将分辨率提高了2倍,因此需要转置卷积层2以提高输入分辨率并减少特征通道数后进行求和。

  上表是具体结构,一层解码层是由A、B串联组成,总共有5层解码层,其中(1-4)代表前4层解码层的参数, c 、 h 、 w c、h、w chw是特征图的通道数,高和宽。在(5)也就是第五层解码层中A与(1-4)一致,所以作者在表中省略了。(5)层的B中输出 n n n是语义分割的类别数。

[结果分析]

[数据集]

  作者选择[Multispectral Image Recognition-RGB红外语义分割]数据集,该数据集包含1569对RGB和热图像,其中白天拍摄820对,夜间拍摄749对。 有9种手工标记的语义类,包括未标记的背景类。 数据集中的图像分辨率为480×640。
  训练集由50%的白天图像和50%的夜间图像组成。 验证集由25%的白天图像和25%的夜间图像组成,其他图像用于测试。

[训练细节]

  作者使用带有CUDA 8.0和cuDNN 7.0库的PyTorch0.4.1实现RTFNet。RTFNet在配备Intel 3.6GHz i7 CPU和单个NVIDIA 1080 Ti显卡的PC上进行了训练。由于显卡内存限制为11 GB,因此会针对不同网络调整批量大小。作者使用PyTorch提供的ResNet预先训练的权重来训练RTFNet,但红外编码器中的ResNet的第一卷积层除外。使用随机梯度下降(SGD)最优化求解器训练。动量和权重衰减分别设置为0.9和0.0005。初始学习率设置为0.01。

[评估指标]

  作者采用两个指标对这些语义分割性能进行定量评估。 第一个是每个类别的Accuracy(Acc),也称为召回率。 第二个是每个类的交并比(IoU)。 两个指标的所有类别的平均值分别表示为mAcc和mIoU。 它们以公式计算:
m A c c = 1 N ∑ i = 1 N T P i T P i + F N i \mathrm{m} \mathrm{Acc}=\frac{1}{N} \sum_{i=1}^{N} \frac{\mathrm{TP}_{i}}{\mathrm{TP}_{i}+\mathrm{FN}_{i}} mAcc=N1i=1NTPi+FNiTPi m I o U = 1 N ∑ i = 1 N T P i T P i + F P i + F N i \mathrm{mIoU}=\frac{1}{N} \sum_{i=1}^{N} \frac{\mathrm{TP}_{i}}{\mathrm{TP}_{i}+\mathrm{FP}_{i}+\mathrm{FN}_{i}} mIoU=N1i=1NTPi+FPi+FNiTPi
其中 N N N是类别数。在作者的实验中 N = 9 N = 9 N=9,包括未标记的背景类。 T P i = ∑ k = 1 K P i i k TP_i = \sum_{k=1}^{K}P^k_{ii} TPi=k=1KPiik F P i = ∑ k = 1 K ∑ j = 1 , i ≠ j N P j i k FP_i=\sum^K_{k = 1}∑^N_{j = 1,i≠j}P^k_{ji} FPi=k=1Kj=1,i=jNPjik F N i = ∑ k = 1 K ∑ j = 1 , j = i N P i j k FN_i = ∑^{K}_{k = 1} ∑^N_{j = 1,j= i}P^k_{i j} FNi=k=1Kj=1j=iNPijk是每一类 i i i的真阳性,假阳性和假阴性,其中 K K K是测试帧的数量, P i i k P^k_{ii} Piik是在第 k k k帧中被正确分类为 i i i类的像素数, P j i k P^k_{ji} Pjik是在第 k k k帧中被错误分类为 i i i类的 j j j类的像素数, P i j k P^k_{i j} Pijk是类别 i i i在帧 k k k中被错误分类为类别 j j j的像素数。

[模型有效性研究]

  作者首先对比编码器,仅使用RGB图像不使用红外的模型为NTE,不使用RGB图像仅使用红外的模型为NRE,与RTFNet对比。之后是解码器,使用简单的解码层进行解码,又单一的转置卷积、BN和ReLU组成,同样由5层解码层构成解码器,为NUB。与使用Upception结构的RTFNet比较。

  上图展示了结果。通常,当使用具有更多层的ResNet作为编码器时,性能会更好。特别是,从ResNet-34到ResNet-50,性能得到了极大的提高。但是,比ResNet-50多的层不能为性能改进做出太多贡献。
  通过比较NRE和NTE的结果,作者发现NRE通常可以提供更好的性能,但它们均不如RTFNet。这证明了数据融合是提高性能的有效方法,并且热信息在数据融合中起着重要作用。通过与NUB进行比较,发现作者提出的Upception在RTFNet中起着重要作用,因为如果没有它,性能会显著下降 。

  上表展示了白天和夜间场景中NRE和NTE的测试结果。 仅在白天情况下使用RGB信息会产生更好的结果,而在夜间情况下仅使用热信息会带来更好的结果,因为RGB图像在白天更具参考价值,而热图像在夜间更具参考价值。

为了证明作者融合的有效性。 作者从RTFNet中删除除最后一层以外的融合层。,将此变体称为OLF(仅最后融合层)。 还删除了热编码器并修改了RGB编码器,以将4通道RGB红外图像作为输入。 4通道数据是通过将3通道RGB数据与1通道热数据简单连接而获得的。此变体称为FCI(四通道输入)。上表展示了比较结果。RTFNet在mAcc和mIoU方面均取得了最佳结果。

[总体结果]

  下表展示了不同网络之间的性能对比,其中3c表示网络是3通道输入只有RGB图像,4c是将RBG和红外通道叠加作为输入。

[白天夜间对比结果]

  下表展示了不同网络之间在白天和夜间的性能对比。

[推理速度]

  作者使用NVIDIA GeForce GTX 1080 Ti显卡和NVIDIA Jetson TX2(Tegra X2)嵌入式平台来测量网络的推理速度。 下表是在输入分辨率为480×640的情况下在测试数据集上显示平均时间成本。 RTFNet-50在GTX1080 Ti上表现出实时推理速度,在Jetson TX2上表现出可接受的速度。 与RTFNet-152相比,作者认为在实际应用中最好使用RTFNet-50,因为在这种应用中,推理速度通常是至关重要的问题。

🚪传送门

◉ 🎨RGB💥🔥红外
📦数据集
[TNO-RGB红外图像]
[FLIR-RGB红外图像]
[Multispectral Image Recognition-RGB红外目标检测]
[Multispectral Image Recognition-RGB红外语义分割]
[INO-RGB红外视频]
[SYSU-MM01行人重识别可见光红外数据]
📚论文
[VIF-Net:RGB和红外图像融合的无监督框架]
[SiamFT:通过完全卷积孪生网络进行的RGB红外融合跟踪方法]
[TU-Net/TDeepLab:基于RGB和红外的地形分类]
[RTFNet:用于城市场景语义分割的RGB和红外融合网络]
[DenseFuse:红外和可见图像的融合方法]
[MAPAN:基于自适应行人对准的可见红外跨模态行人重识别网络]

◉ 🌆多光谱💥🌁高光谱
📦数据集
[高光谱图像数据]
📚论文
[Deep Attention Network:基于深层注意力网络的高光谱与多光谱图像融合]

◉ 🎨RGB💥🥓SAR
📦数据集
[待更新]
📚论文
[待更新]

◉ 🎨RGB💥🔥红外💥🥓SAR
📦数据集
[待更新]
📚论文
[待更新]

💕大家有数据融合方向的优秀论文可以在评论分享一下,感谢。🤘

评论 25
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值