目录
一、Title
RTFNet: RGB-Thermal Fusion Network for Semantic Segmentation of Urban Scenes
二、Journal
IEEE ROBOTICS AND AUTOMATION LETTERS
三、Background
相比RGB相机,热成像相机的优势。
四、Model
RTFNet是用于城市场景语义分割的深度神经网络模型,RTFNet的总体架构见上图。RTFNet由三个模块组成:RGB编码器和热编码器,分别用于从RGB图像和热图像中提取特征;解码器,用于恢复feature map的分辨率。RTFNet中的解码器模块不是编码器模块的mirrored version,即编码器和解码器采用非对称设计,RTFNet有两个大编码器和一个小解码器。最后使用softmax层来得到语义分割结果的概率图。
蓝色和黄色梯形分别表示编码器(左)和解码器(右)。使用ResNet作为特征提取器,去掉平均池和全连接层。通过元素求和,热feature map被融合到RGB编码器中。解码器有5层,其中每层依次由Upception blocks A和B组成。layer和block的输出分辨率在图中显示,输入图像的分辨率为480 × 640。
Upception block的体系结构。Conv、TransConv和BN分别指卷积层、转置卷积层和批量归一化层。Upception block A保持分辨率和feature map通道数量不变;Upception block B增加分辨率并减少feature map的通道。
在Upception block A中有3个卷积层,分辨率和特征通道的数量不变。从输入到输出(第三个BN layer)的short cut。
在Upception block B中,第一卷积层(Conv 1)保持分辨率不变,并将feature channels的数量减少2倍。第二个卷积层(Conv 2)保持分辨率和feature channels的数量不变。与Upception block A类似,从输入到输出(第三个BN layer)的short cut。由于第一转置卷积层(TransConv 1)保持feature channels的数量不变,并将分辨率提高2倍,因此需要第二转置卷积层(TransConv 2)提高分辨率并减少feature channels的数量。否则,特征映射的形状将不匹配,因此求和操作无法执行。Upception block中神经网络层的详细参数见下表。
解码器中有5层。每个解码器层依次由一个Upception block A和一个Upception block B组成。Upception block B使每个解码器层能够增加feature map分辨率,并将特征通道的数量减少2倍。最后一个解码器层中的Upception block B的输出通道的数量被设置为语义类别的数量。
卷积(Conv)和转置卷积(TransConv)层的详细结构。c,h,w,n指的是通道数,特征图的高度和宽度,语义分割的类别数。(1-4)表示Upception block从第1层到第4层解码器层。(5)表示Upception block从第5层(最后一层)解码器层。