RTFNet——用于城市场景语义分割的RGB和热红外融合网络

Overview

  • Title—RTFNet:用于城市场景语义分割的RGB和热红外融合网络
  • Time—2019
  • Journal—IEEE ROBOTICS AND AUTOMATION LETTERS
  • Majors—图像语义分割(Semantic Segmentation)
  • Link—

Summary

  • RGB 图像的质量在不满意的照明条件下容易下降,例如黑暗和迎面而来的前灯的眩光。
  • 采用编码器-解码器(Encoder-Decoder)设计理念。 ResNet 用于特征提取,并开发了一种新的解码器来恢复特征图分辨率。

Method

  • 关键思想是利用热像仪的优势,融合RGB和热信息以实现卓越的性能。
  • 采用Encoder-Decoder的设计概念。
  • 在两个编码器中的ResNet在用于特征提取。开发了一种新的解码器以恢复特征图分辨率。

Model

  • RTFNet由三个模块组成:分别用于从RGB和热图像中提取特征的RGB编码器红外编码器;用于恢复特征图分辨率的解码器。编码器和解码器区域对称设计。在RTFNet的末尾,使用softmax层来获取语义分割结果的概率图。
    在这里插入图片描述

  • RTFNet 由三个模块组成:RGB 编码器和热编码器(分别用于从 RGB 和热图像中提取特征);用于恢复特征图分辨率的解码器。编码器和解码器是不对称设计的。有两个大编码器和一个小解码器。

  • Backbone:RTFNet-18、RTFNet-34、RTFNet-50、RTFNet-101和RTFNet-152分别对应ResNet-18、ResNet-34、ResNet-50、ResNet-101和ResNet-152。

  • The Encoder 编码器:编码器使用ResNet,去掉平均池和完全连接的层作为特征提取器。热特征图被融合到RGB编码器通过元素的求和。该解码器共有5层,每层依次由Upception块A和b组成。图中是以输入为480×640的为例,层和块的输出分辨率如图所示。

  • The Decoder 解码器:解码器的主要设计目的是得到和原始输入分辨率相同的密集预测。通过解码器,特征图的分辨率逐渐恢复到输入图像的分辨率。

  • Upception模块:由Upception block A和Upception block b两个子块组成。A块(左)保持分辨率和feature map通道数量不变;B块(右)增加了特征图的分辨率,减少了通道数量。详细结构如下图所示。其中,Conv表示卷积层,TransConv表示转置卷积层,BN表示批量归一化层。
    在这里插入图片描述
    在这里插入图片描述


Experiments

datasets:选择MFNet提出的第一个RGBT数据集[Multispectral Image Recognition-RGB红外语义分割],该数据集包含1569对RGB和热图像,其中白天拍摄820对,夜间拍摄749对。 有9种手工标记的语义类,包括未标记的背景类。 数据集中的图像分辨率为480×640。训练集由50%的白天图像和50%的夜间图像组成。 验证集由25%的白天图像和25%的夜间图像组成,其他图像用于测试。
1 Metrics:
  • 每个类的准确性(Acc):也称召回率。
    m A c c = 1 N ∑ i = 1 N T P i T P i + F N i mAcc=\frac{1}{N}\sum_{i=1}^{N}\frac{TP_i}{TP_i+FN_i} mAcc=N1i=1NTPi+FNiTPi

  • 每个类的交并比(IoU):
    m I o U = 1 N ∑ i = 1 N T P i T P i + F P i + F N i mIoU=\frac{1}{N}\sum_{i=1}^{N}\frac{TP_i}{TP_i+FP_i+FN_i} mIoU=N1i=1NTPi+FPi+FNiTPi
    其中,N是 类别数。 T P i = ∑ k = 1 K P i i K TP_i=\sum_{k=1}^{K}P_{ii}^K TPi=k=1KPiiK F P i = ∑ k = 1 K ∑ j = 1 , i ≠ j N P j i K FP_i=\sum_{k=1}^{K}\sum_{j=1,i\ne j}^{N}P_{ji}^K FPi=k=1Kj=1,i=jNPjiK F N i = ∑ k = 1 K ∑ j = 1 , i = j N P i j K FN_i=\sum_{k=1}^{K}\sum_{j=1,i=j}^{N}P_{ij}^K FNi=k=1Kj=1,i=jNPijK 分别是每一类的真阳性、假阳性和假阴性,其中K是测试帧的数量, P i i K P_{ii}^K PiiK是在第k帧被正确分类为i类的像素数, P j i K P_{ji}^K PjiK是在第k帧中被错误分类为i类的j类的像素数, P i j K P_{ij}^K PijK是类别i在帧k中被错误分类为类别j的像素数。


2 消融实验
- 模型有效性
	- NTE:没有Thermal
	- NRE:没有RGB
	- NUB:没有Upception

在这里插入图片描述
结论1:当使用具有更多层的ResNet作为编码器时,性能会更好。
结论2:通过比较NRE和NTE的结果,作者发现NRE通常可以提供更好的性能,但它们均不如RTFNet。这证明了数据融合是提高性能的有效方法,并且热信息在数据融合中起着重要作用。
结论3:通过与NUB进行比较,发现作者提出的Upception在RTFNet中起着重要作用,因为如果没有它,性能会显著下降 。

- 融合有效性分析(白天和夜间场景中NRE和NTE的测试结果;OLF (Only Last Fusion)  FCI (Four-Channel Inputs))

在这里插入图片描述
在这里插入图片描述
结论1:仅在白天情况下使用RGB信息会产生更好的结果,而在夜间情况下仅使用热信息会带来更好的结果
结论2:RGB图像在白天更具参考价值,而热图像在夜间更具参考价值
结论3:对比OLF 、FCI ;RTFNet在mAcc和mIoU方面均取得了最佳结果

  • 3 现有方法对比:不同模型总数据对比和不同模型在白天和黑夜的对比(3c:RGB & 4c:RGBT)
    在这里插入图片描述
    在这里插入图片描述
    总结果:RTFNet在各种场景,甚至在具有挑战性的光照条件下都具有较好效果。
    问题:推理速度较低;网络分割出的目标边界不够清晰。

Evaluation


Notes

  • IoU的全称为交并比(Intersection over Union),是目标检测中使用的一个概念。并交比(intersection over union)函数,可以用来评价目标检测算法。IoU计算的是“预测的边框”和“真实的边框”的交叠率-,即它们的交集和并集的比值。最理想情况是完全重叠,即比值为1。一般来说,IoU大于等于0.5,那么结果是可以接受的,就说检测正确。如果预测器和实际边界框完美重叠,loU就是1,因为交集就等于并集。一般约定,0.5是阈值(threshold),用来判断预测的边界框是否正确。loU越高,边界框越精确。
  • 在这里插入图片描述

在这里插入图片描述

def calculateIoU(candidateBound, groundTruthBound):
    cx1 = candidateBound[0]
    cy1 = candidateBound[1]
    cx2 = candidateBound[2]
    cy2 = candidateBound[3]
 
    gx1 = groundTruthBound[0]
    gy1 = groundTruthBound[1]
    gx2 = groundTruthBound[2]
    gy2 = groundTruthBound[3]
 
    carea = (cx2 - cx1) * (cy2 - cy1) #C的面积
    garea = (gx2 - gx1) * (gy2 - gy1) #G的面积
 
    x1 = max(cx1, gx1)
    y1 = max(cy1, gy1)
    x2 = min(cx2, gx2)
    y2 = min(cy2, gy2)
    w = max(0, abs(x2 - x1))
    h = max(0, abs(y2 - y1))
    area = w * h #C∩G的面积
 
    iou = area / (carea + garea - area)
 
    return iou

References

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值