语义分割融合跨特征层信息

简介

    语义分割的基本任务是为每个像素产生高层次表达,即具备高语义性的特征,现有的基于FCN网络的编码器-解码器范式,通常需要在Backbone网络后设计一个语义头来增强特征图的语义表达能力,然而CNNs下的卷积池化操作在提取特征的同时丢失了底层的纹理细节。总的来说,编码器-解码器结构下的语义分割网络,高层次特征和低层次特征分布在网络两端,高层次特征具备语义性但丢失低层细节,低层次特征语义性差但细节丰富。此外,在常见的resnet作为基准网络下,不同stage关注的信息也是有差异的。因此很多相关论文会考虑利用不同层的特征(多层特征)去融合信息,提升分割的性能。其中最常见的跨特征层融合的思想是跳连接,如UNet、Deeplabv3+; 也有采取门控的思想去选择性融合有用的特征,如GFFNet;还有通过语义流对齐不同层之间的特征,如SFNet。
    最近阅读了两篇融合不同特征层信息的语义分割论文,在这里进行总结。这两篇论文是ANN和STLNet,分别从non-local变体和统计纹理信息角度融合了多层特征,论文的思想值得借鉴!

论文方法

  1. ICCV2019的Asymmetric Non-local Neural Networks for Semantic Segmentation(ANN)指出Non-local module对于聚合语义信息很有用,但是计算开销和显存占用大,不利于实际应用。因此该论文提出Asymmetric Pyramid Non-local Block (APNB) and Asymmetric Fusion Non-local Block (AFNB)。APNB利用金字塔池化,保持性能同时降低计算和显存开销;AFNB可以融合不同层特征,充分考虑长范围依赖。其网络结构如下图所示:在这里插入图片描述
    输入图像送入resnet基准网络提取深度特征,ANN将stage4和stage5特征图通过AFNB模块进行跨特征层融合,融合后的结果与stage5输出concat,卷积融合后得到 Y F Y_F YF Y F Y_F YF经过APNB模块增强语义表达(聚合上下文信息)之后,再与自身concat,卷积融合后得到最终的特征图 Y P Y_P YP。APNB和AFNB思想都是来自non-local,不过在其基础上进行了修改,主要是简化计算量。APNB和AFNB都是采取金字塔池化(PSPNet论文思想)的方式将non-local的key、value特征进行采样,即通过不同的池化核大小对key,value特征图进行池化,得到不同核大小的池化特征图,再把池化特征图序列化,接下来的操作就与原始non-local类似了。不同池化核得到多个池化特征图,然后序列化拼在一起,总的特征数目是远远小于原始的key、value的H*W个特征的,因此可以理解成对key、value进行了特征采样,降低了需要non-lcoca匹配的特征数目。APNB是把key、value参数进行了复用,而AFNB则是用来融合跨层的特征信息。
    总结: 个人认为,AFNB这种融合跨层特征信息,一个前提就是stage4引出的query和stage5引出的key之间要满足相似性匹配,因此只能融合语义信息高的特征图(如stage4和stage5),低层和高层的就不行(如stage1和stage5)。当然,可以考虑参考这种思想去改进,提出新的融合方式。
  2. CVPR2021的Learning Statistical Texture for Semantic Segmentation(STLNet)指出现有的语义分割工作主要集中在学习高语义特征的上下文信息,且为了获得准确的边界,低层次纹理特征直接通过跳连接方式与深度特征融合。该论文出发点:纹理特征不止包括局部结构,还包括全局的统计知识。STLNet分析了低层次信息的分布,提出量化和计数算子去描述纹理信息,引入两个模块:1)TEM(Texture Enhance Module)–> 捕获纹理信息并增强纹理细节;2) PTFEM(Pyramid Texture Feature Extraction Module)–> 从多尺度提取统计纹理特征。其对纹理特征的量化和计数的思想来源于数字图像处理的直方图均衡化,直方图均衡化可以使得图像的纹理细节更加突出,resnet网络的底层特征包含丰富的边缘细节,因此该论文尝试对resnet的底层特征进行量化编码并计数,对特征的相似性权重进行类似于灰度级分层形式的变换(具体的QCO、TEM、PTFEM的设计见原始论文)。STLNet网络结构如下图所示:
    在这里插入图片描述
    可以看到,其网络Backbone就是非常经典的Deeplabv3+,即输入图像经过resnet提取深度特征,然后通过ASPP模块聚合上下文信息得到高语义特征,高语义特征与低层次特征再concat,卷积融合得到输出。 与Deeplabv3+不同之处在于,STLNet将stage1和stage2的低层次特征concat融合后,送入TEM(1维QCO编码)和PTFEM(2维QCO编码)两个模块增强低层特征,再与ASPP后的高层次特征融合,带来了mIoU的提升。
    总结:个人认为,直接融合高层特征和低层特征是存在困难的,因为低层次特征语义性较差,不方便采取类似non-local方法的思想。这里总结几个思想:1)借鉴GFFNet门控机制,有选择性融合低层和高层特征; 2)借鉴STLNet思想,对低层次特征采取其他形式的增强;3)个人想法,借助高语义特征图,通过注意力机制的形式去帮助筛选(增强)低层次特征。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值