目录
一、Title
Multi-modal neural networks with multi-scale RGB-T fusion for semantic segmentation
二、Journal
Electronics Letters
三、Background
在夜间条件下和路灯照明有限的情况下,最先进的算法在处理可见光谱的彩色图像时会失败。在这种情况下,热成像相机可以用来捕捉场景,因为它可以透过黑暗或烟雾“看到”。热像仪感测红外光谱中场景的辐射,并使用记录的辐射使用普朗克方程计算图像辐射源的温度。因此,热成像能够分割在不令人满意的照明下捕获的热辐射图像。(直接知云翻译的论文,Background其实没必要看了)
四、Model
多模态融合神经网络FuNNet-34用于处理对齐后的RGB和热图像,并生成相应的语义图像分割。FuNNet-34是编码器-解码器结构,W×H×3的RGB编码器,W×H的热编码器,解码器用于融合所提取的具有多个分辨率的多模态特征,并计算出语义分割的mask。
每个编码器流包含ResNet-34的卷积部分和ASPP模块,用于处理多尺度的对象分割问题。
解码器流包含:(I)四个级联层;(ii)基于一种新颖的解码器块结构设计的五个模块,称为Resdiv;和(iii)执行像素分类的Softmax层。由每个编码器提取的aspp特征映射被连接,然后由Resdiv 5处理。由RGB编码器提取的conv2 x、conv3 x和conv4 x特征图与由热编码器提取的相应特征图级联,然后添加到在处理较低分辨率特征图后获得的相应特征图中,最后由相应的Resdiv模块进一步处理。Resdiv 1计算大小为W × H × nc的最终特征图,其中nc是softmax层用于计算输出图像分割的类别数。