Overview
-
Title—RTFNet:用于城市场景语义分割的RGB和热红外融合网络
-
Time—2019
-
Journal—IEEE ROBOTICS AND AUTOMATION LETTERS
-
Majors—图像语义分割(Semantic Segmentation)
-
Link—
Summary
- RGB 图像的质量在不满意的照明条件下容易下降,例如黑暗和迎面而来的前灯的眩光。
- 采用编码器-解码器(Encoder-Decoder)设计理念。 ResNet 用于特征提取,并开发了一种新的解码器来恢复特征图分辨率。
Method
- 关键思想是利用热像仪的优势,融合RGB和热信息以实现卓越的性能。
- 采用Encoder-Decoder的设计概念。
- 在两个编码器中的ResNet在用于特征提取。开发了一种新的解码器以恢复特征图分辨率。
Model
-
RTFNet由三个模块组成:分别用于从RGB和热图像中提取特征的RGB编码器和红外编码器;用于恢复特征图分辨率的解码器。编码器和解码器区域对称设计。在RTFNet的末尾,使用softmax层来获取语义分割结果的概率图。
-
RTFNet 由三个模块组成:RGB 编码器和热编码器(分别用于从 RGB 和热图像中提取特征);用于恢复特征图分辨率的解码器。编码器和解码器是不对称设计的。有两个大编码器和一个小解码器。
-
Backbone:RTFNet-18、RTFNet-34、RTFNet-50、RTFNet-101和RTFNet-152分别对应ResNet-18、ResNet-34、ResNet-50、ResNet-101和ResNet-152。
-
The Encoder 编码器:编码器使用ResNet,去掉平均池和完全连接的层作为特征提取器。热特征图被融合到RGB编码器通过元素的求和。该解码器共有5层,每层依次由Upception块A和b组成。图中是以输入为480×640的为例,层和块的输出分辨率如图所示。
-
The Decoder 解码器:解码器的主要设计目的是得到和原始输入分辨率相同的密集预测。通过解码器,特征图的分辨率逐渐恢复到输入图像的分辨率。
-
Upception模块:由Upception block A和Upception block b两个子块组成。A块(左)保持分辨率和feature map通道数量不变;B块(右)增加了特征图的分辨率,减少了通道数量。详细结构如下图所示。其中,Conv表示卷积层,TransConv表示转置卷积层,BN表示批量归一化层。
Experiments
datasets:选择MFNet提出的第一个RGBT数据集[Multispectral Image Recognition-RGB红外语义分割],该数据集包含1569对RGB和热图像,其中白天拍摄820对,夜间拍摄749对。 有9种手工标记的语义类,包括未标记的背景类。 数据集中的图像分辨率为480×640。训练集由50%的白天图像和50%的夜间图像组成。 验证集由25%的白天图像和25%的夜间图像组成,其他图像用于测试。
1 Metrics:
-
每个类的准确性(Acc):也称召回率。
m A c c = 1 N ∑ i = 1 N T P i T P i + F N i mAcc=\frac{1}{N}\sum_{i=1}^{N}\frac{TP_i}{TP_i+FN_i} mAcc=N1i=1∑NTPi+FNiTPi -
每个类的交并比(IoU):
m I o U = 1 N ∑ i = 1 N T P i T P i + F P i + F N i mIoU=\frac{1}{N}\sum_{i=1}^{N}\frac{TP_i}{TP_i+FP_i+FN_i} mIoU=N1i=1∑NTPi+FPi+FNiTPi
其中,N是 类别数。 T P i = ∑ k = 1 K P i i K TP_i=\sum_{k=1}^{K}P_{ii}^K TPi=∑k=1KPiiK, F P i = ∑ k = 1 K ∑ j = 1 , i ≠ j N P j i K FP_i=\sum_{k=1}^{K}\sum_{j=1,i\ne j}^{N}P_{ji}^K FPi=∑k=1K∑j=1,i=jNPjiK, F N i = ∑ k = 1 K ∑ j = 1 , i = j N P i j K FN_i=\sum_{k=1}^{K}\sum_{j=1,i=j}^{N}P_{ij}^K FNi=∑k=1K∑j=1,i=jNPijK 分别是每一类的真阳性、假阳性和假阴性,其中K是测试帧的数量, P i i K P_{ii}^K PiiK是在第k帧被正确分类为i类的像素数, P j i K P_{ji}^K PjiK是在第k帧中被错误分类为i类的j类的像素数, P i j K P_{ij}^K PijK是类别i在帧k中被错误分类为类别j的像素数。
2 消融实验
- 模型有效性
- NTE:没有Thermal
- NRE:没有RGB
- NUB:没有Upception
结论1:当使用具有更多层的ResNet作为编码器时,性能会更好。
结论2:通过比较NRE和NTE的结果,作者发现NRE通常可以提供更好的性能,但它们均不如RTFNet。这证明了数据融合是提高性能的有效方法,并且热信息在数据融合中起着重要作用。
结论3:通过与NUB进行比较,发现作者提出的Upception在RTFNet中起着重要作用,因为如果没有它,性能会显著下降 。
- 融合有效性分析(白天和夜间场景中NRE和NTE的测试结果;OLF (Only Last Fusion) FCI (Four-Channel Inputs))
结论1:仅在白天情况下使用RGB信息会产生更好的结果,而在夜间情况下仅使用热信息会带来更好的结果
结论2:RGB图像在白天更具参考价值,而热图像在夜间更具参考价值
结论3:对比OLF 、FCI ;RTFNet在mAcc和mIoU方面均取得了最佳结果
- 3 现有方法对比:不同模型总数据对比和不同模型在白天和黑夜的对比(3c:RGB & 4c:RGBT)
总结果:RTFNet在各种场景,甚至在具有挑战性的光照条件下都具有较好效果。
问题:推理速度较低;网络分割出的目标边界不够清晰。
Evaluation
Notes
- IoU的全称为交并比(Intersection over Union),是目标检测中使用的一个概念。并交比(intersection over union)函数,可以用来评价目标检测算法。IoU计算的是“预测的边框”和“真实的边框”的交叠率-,即它们的交集和并集的比值。最理想情况是完全重叠,即比值为1。一般来说,IoU大于等于0.5,那么结果是可以接受的,就说检测正确。如果预测器和实际边界框完美重叠,loU就是1,因为交集就等于并集。一般约定,0.5是阈值(threshold),用来判断预测的边界框是否正确。loU越高,边界框越精确。
def calculateIoU(candidateBound, groundTruthBound):
cx1 = candidateBound[0]
cy1 = candidateBound[1]
cx2 = candidateBound[2]
cy2 = candidateBound[3]
gx1 = groundTruthBound[0]
gy1 = groundTruthBound[1]
gx2 = groundTruthBound[2]
gy2 = groundTruthBound[3]
carea = (cx2 - cx1) * (cy2 - cy1) #C的面积
garea = (gx2 - gx1) * (gy2 - gy1) #G的面积
x1 = max(cx1, gx1)
y1 = max(cy1, gy1)
x2 = min(cx2, gx2)
y2 = min(cy2, gy2)
w = max(0, abs(x2 - x1))
h = max(0, abs(y2 - y1))
area = w * h #C∩G的面积
iou = area / (carea + garea - area)
return iou