RTFNet——用于城市场景语义分割的RGB和热红外融合网络

迷途老书虫

已于 2022-09-29 14:18:18 修改

阅读量1.1k

点赞数

分类专栏： RGBT 文章标签：计算机视觉人工智能深度学习

于 2022-09-22 13:41:35 首次发布

本文链接：https://blog.csdn.net/u011490237/article/details/126980055

版权

RGBT 专栏收录该内容

5 篇文章 2 订阅

订阅专栏

Overview

Title—RTFNet：用于城市场景语义分割的RGB和热红外融合网络
Time—2019
Journal—IEEE ROBOTICS AND AUTOMATION LETTERS
Majors—图像语义分割（Semantic Segmentation）
Link—
- 论文链接
- 代码链接

Summary

RGB 图像的质量在不满意的照明条件下容易下降，例如黑暗和迎面而来的前灯的眩光。
采用编码器-解码器（Encoder-Decoder）设计理念。 ResNet 用于特征提取，并开发了一种新的解码器来恢复特征图分辨率。

Method

关键思想是利用热像仪的优势，融合RGB和热信息以实现卓越的性能。
采用Encoder-Decoder的设计概念。
在两个编码器中的ResNet在用于特征提取。开发了一种新的解码器以恢复特征图分辨率。

Model

RTFNet由三个模块组成：分别用于从RGB和热图像中提取特征的RGB编码器和红外编码器；用于恢复特征图分辨率的解码器。编码器和解码器区域对称设计。在RTFNet的末尾，使用softmax层来获取语义分割结果的概率图。
RTFNet 由三个模块组成：RGB 编码器和热编码器（分别用于从 RGB 和热图像中提取特征）；用于恢复特征图分辨率的解码器。编码器和解码器是不对称设计的。有两个大编码器和一个小解码器。
Backbone：RTFNet-18、RTFNet-34、RTFNet-50、RTFNet-101和RTFNet-152分别对应ResNet-18、ResNet-34、ResNet-50、ResNet-101和ResNet-152。
The Encoder 编码器：编码器使用ResNet，去掉平均池和完全连接的层作为特征提取器。热特征图被融合到RGB编码器通过元素的求和。该解码器共有5层，每层依次由Upception块A和b组成。图中是以输入为480×640的为例，层和块的输出分辨率如图所示。
The Decoder 解码器：解码器的主要设计目的是得到和原始输入分辨率相同的密集预测。通过解码器，特征图的分辨率逐渐恢复到输入图像的分辨率。
Upception模块：由Upception block A和Upception block b两个子块组成。A块（左）保持分辨率和feature map通道数量不变；B块（右）增加了特征图的分辨率，减少了通道数量。详细结构如下图所示。其中，Conv表示卷积层，TransConv表示转置卷积层，BN表示批量归一化层。

Experiments

datasets：选择MFNet提出的第一个RGBT数据集[Multispectral Image Recognition-RGB红外语义分割]，该数据集包含1569对RGB和热图像，其中白天拍摄820对，夜间拍摄749对。有9种手工标记的语义类，包括未标记的背景类。数据集中的图像分辨率为480×640。训练集由50％的白天图像和50％的夜间图像组成。验证集由25％的白天图像和25％的夜间图像组成，其他图像用于测试。

1 Metrics：

每个类的准确性（Acc）：也称召回率。
$mAcc=\frac{1}{N}\sum_{i=1}^{N}\frac{TP_i}{TP_i+FN_i}$
每个类的交并比（IoU）:
$mIoU=\frac{1}{N}\sum_{i=1}^{N}\frac{TP_i}{TP_i+FP_i+FN_i}$
其中，N是类别数。 $TP_i=\sum_{k=1}^{K}P_{ii}^K$ ， $FP_i=\sum_{k=1}^{K}\sum_{j=1,i\ne j}^{N}P_{ji}^K$ ， $FN_i=\sum_{k=1}^{K}\sum_{j=1,i=j}^{N}P_{ij}^K$ 分别是每一类的真阳性、假阳性和假阴性，其中K是测试帧的数量, $P_{ii}^K$ 是在第k帧被正确分类为i类的像素数， $P_{ji}^K$ 是在第k帧中被错误分类为i类的j类的像素数， $P_{ij}^K$ 是类别i在帧k中被错误分类为类别j的像素数。

2 消融实验

- 模型有效性
	- NTE：没有Thermal
	- NRE：没有RGB
	- NUB：没有Upception

在这里插入图片描述
结论1：当使用具有更多层的ResNet作为编码器时，性能会更好。
结论2：通过比较NRE和NTE的结果，作者发现NRE通常可以提供更好的性能，但它们均不如RTFNet。这证明了数据融合是提高性能的有效方法，并且热信息在数据融合中起着重要作用。
结论3：通过与NUB进行比较，发现作者提出的Upception在RTFNet中起着重要作用，因为如果没有它，性能会显著下降。

- 融合有效性分析（白天和夜间场景中NRE和NTE的测试结果；OLF (Only Last Fusion)  FCI (Four-Channel Inputs)）

在这里插入图片描述

结论1：仅在白天情况下使用RGB信息会产生更好的结果，而在夜间情况下仅使用热信息会带来更好的结果
结论2：RGB图像在白天更具参考价值，而热图像在夜间更具参考价值
结论3：对比OLF 、FCI ；RTFNet在mAcc和mIoU方面均取得了最佳结果

3 现有方法对比：不同模型总数据对比和不同模型在白天和黑夜的对比（3c：RGB & 4c：RGBT）

总结果：RTFNet在各种场景，甚至在具有挑战性的光照条件下都具有较好效果。
问题：推理速度较低；网络分割出的目标边界不够清晰。

Evaluation

Notes

IoU的全称为交并比（Intersection over Union），是目标检测中使用的一个概念。并交比（intersection over union）函数，可以用来评价目标检测算法。IoU计算的是“预测的边框”和“真实的边框”的交叠率-，即它们的交集和并集的比值。最理想情况是完全重叠，即比值为1。一般来说，IoU大于等于0.5，那么结果是可以接受的，就说检测正确。如果预测器和实际边界框完美重叠，loU就是1，因为交集就等于并集。一般约定，0.5是阈值（threshold），用来判断预测的边界框是否正确。loU越高，边界框越精确。

在这里插入图片描述

def calculateIoU(candidateBound, groundTruthBound):
    cx1 = candidateBound[0]
    cy1 = candidateBound[1]
    cx2 = candidateBound[2]
    cy2 = candidateBound[3]
 
    gx1 = groundTruthBound[0]
    gy1 = groundTruthBound[1]
    gx2 = groundTruthBound[2]
    gy2 = groundTruthBound[3]
 
    carea = (cx2 - cx1) * (cy2 - cy1) #C的面积
    garea = (gx2 - gx1) * (gy2 - gy1) #G的面积
 
    x1 = max(cx1, gx1)
    y1 = max(cy1, gy1)
    x2 = min(cx2, gx2)
    y2 = min(cy2, gy2)
    w = max(0, abs(x2 - x1))
    h = max(0, abs(y2 - y1))
    area = w * h #C∩G的面积
 
    iou = area / (carea + garea - area)
 
    return iou