[SS]语义分割_文献摘要

目录

一、语义分割 

01-DeepLabv3+语义分割模型的济南市防尘绿网提取及时空变化分析

02-GCM+-LANet:遥感图像语义分割的全局卷积模块与局部注意力网络模型

03-多源特征自适应融合网络的高分遥感影像语义分割 

04-改进U-Net模型的无人机影像在建道路分类

05-高分辨率遥感影像的边缘损失增强地物分割

06-互注意力机制驱动的轻量级图像语义分割网络

07-基于改进U-Net的遥感影像城镇绿地提取 

08-空间信息感知语义分割模型的高分辨率遥感影像道路提取

09-面向小目标提取的改进DeepLabv3+模型遥感图像分割

10-融合注意力机制及DenseASPP改进的DeepLabv3+遥感图像分割方法

11-一种改进DeepLabv3+网络的高分辨率遥感影像道路提取方法

二、建筑物提取 

01-基于深度学习的高空间分辨率遥感影像建筑屋顶提取方法

02-基于深度学习的无人机影像农村建筑物提取研究

03-基于深度学习的高分辨率遥感影像建筑物提取研究 

04-基于深度学习的遥感图像建筑物提取方法研究 

05-基于深度学习的多场景下建筑物提取研究 

06-基于深度学习的复杂场景下建筑物提取方法研究

07-融合类别语义特征的卷积神经网络建筑物提取

08-IEU-Net高分辨率遥感影像房屋建筑物提取

09-优化Mask-RCNN的高分遥感影像建筑物提取 

10-Res_ASPP_UNet++:结合分离卷积与空洞金字塔的遥感影像建筑物提取网络 

11-非对称卷积金字塔残差网络的遥感影像建筑物提取 

12-基于注意力增强全卷积神经网络的高分卫星影像建筑物提取 

13-基于FPN的高分辨率建筑物图像的语义分割 

14-基于注意力机制与DUsamplingU-Net网络的建筑物提取 

15-融合空间置弃层的U-Net高分影像建筑智能解译 

16-SARBuD1.0:面向深度学习的GF-3精细模式SAR建筑数据集 

17-边缘增强的EDU-Net遥感影像建筑物提取 

18-基于改经PSPNet的卫星遥感图像建筑物语义分割算法 

19-基于不同深度学习模型提取建筑物轮廓的方法研究

20-新型语义分割D-UNet的建筑物提取 

三、综述 

01-无人机航拍影像目标检测与语义分割的深度学习方法研究进展

1)、语义分割发展历程

2)、无人机航拍影像语义分割的深度学习算法

3)、主要问题

4)、展望 

02-基于深度学习的图像分割综述 

1)、基于深度学习的图像分割技术进展分类

2)、挑战与展望 

03-高空间分辨率遥感影像建筑物自动提取方法综述 

1)、基于人工设计特征的传统建筑物提取方法 

2)、基于深度学习的建筑物提取方法 

04-深度学习背景下的图像语义分割方法综述 

1)、面向2D数据的语义分割方法

2)、实验总结 

05-深度学习多模态图像语义分割前沿进展 

1)、深度学习RGB-T图像语义分割模型

2)、常见RGB-T语义分割模型性能比较


一、语义分割 

01-DeepLabv3+语义分割模型的济南市防尘绿网提取及时空变化分析

        本文基于Sentinel-2时间序列遥感影像,使用DeepLabv3+深度学习语义分割模型生成了济南市中心城区2016年-2020年逐年防尘绿网数据,随后利用景观格局、重心-标准差椭圆等方法分析了其空间分布特征和时空扩张趋势。

02-GCM+-LANet:遥感图像语义分割的全局卷积模块与局部注意力网络模型

        局部注意力网络模型(LANet)在遥感图像语义分割上取得了较好的实验效果,但大尺寸、小尺寸和细长的地物目标分割效果不佳。提出了一种改进LANet网络的高分辨率遥感图像语义分割网络模型。

        针对全局特征提取设计了全局卷积模块(GCM+),以组合卷积的形式扩大感受野,提升大尺寸地物目标的分割性能;

        利用针对计算机视觉提出的激活函数Funnel ReLU来解决细小目标漏分的问题。 

03-多源特征自适应融合网络的高分遥感影像语义分割 

        在高分辨率遥感影像语义分割任务中,仅利用可见光图像很难区分光谱特征相似的区域(如草坪和树、道路和建筑物),高程信息的引入可以显著改善分类结果。

        然而,可见光图像与高程数据的特征分布差异较大,简单的级联或相加的融合方式不能有效处理两种模态融合时的噪声,使得融合效果不佳。

        本文提出了一个多源特征自适应融合模型。方法通过像素的目标类别以及上下文信息动态融合模态特征,减弱融合噪声影响,有效利用多模态数据的互补信息。

        提出了一个多源特征自适应融合网络模型,同时利用光谱信息和DSM信息来提高高分辨率遥感图像的分割性能。

        提出了一种模态自适应融合模块,该模块依据像素的目标类别以及上下文信息动态地进行特征融合,从而有效地将DSM特征融合到光谱特征中。 

        提出了一个高效的全局上下文聚合模块,从空间和通道角度对全局上下文进行建模。 

04-改进U-Net模型的无人机影像在建道路分类

        针对无人机影像背景复杂,城市在建道路分类易被相似目标、建设设施等信息干扰的问题,提出了基于改进U-Net模型的无人机影像在建道路提取模型。为获取更深层次的边界细节信息,采用Res2Net结构分阶替换原有U-Net网络的卷积层,提高网络下采样深度。

        增加CBAM双注意力机制模块引与各分块特征信息后,对空间和通道进行重新校准,强调道路特征,校正模型参数。

        引入改进的Dense ASPP模块,与前层次的细节信息拼接,增强道路区域上下文信息的获取能力。

05-高分辨率遥感影像的边缘损失增强地物分割

        针对高分辨率遥感影像语义分割中普遍存在的分割精度不高、目标边界模糊等问题,提出一种综合利用边界信息和网络多尺度特征的边缘损失增强语义分割方法。

        对单幅高分辨率遥感影像,首先通过对VGG-16网络引入侧边输出结构,提取到图像丰富的特征细节,然后使用深度监督的短接结构将从深层到浅层的侧边输出组合起来,实现多层次和多尺度特征融合。最后添加边缘损失增强结构,用以获得较为清晰的目标边界,提高分割结果的准确性和完整性。

06-互注意力机制驱动的轻量级图像语义分割网络

        在图像语义分割中,细节特征和语义特征的融合是该领域的一个难点。一些在特定网络架构下设计的专用融合模块缺乏可扩展性和普适性,自注意力虽然可以实现全局的信息捕获,但不能实现不同特征的融合,其他的注意力机制在进行掩码计算时缺少可解释性。

        本文根据特征图之间的关联度进行建模,提出一种互注意力机制驱动的分割模块。

        该模块获取不同阶段的细节特征图和语义特征图,建立细节特征图上任一点和语义特征图之间的关联模型,并在关联模型的指导下对语义特征图上的特征进行聚合,作为细节特征图上该特征点的补充,从而将语义特征图上的信息融合到细节特征图上,并进一步采用相同的操作将细节特征图上的信息融合到语义特征图上,实现来自不同阶段特征图的相互融合。 

07-基于改进U-Net的遥感影像城镇绿地提取 

        提出一种改进的语义分割模型U-Net来更加高效精准地提取城镇绿地区域。使用高分二号影像制作样本数据集,同时对U-Net网络模型改进,采用不同深度的ResNet作为其主干网络提取图像的语义信息,另外加入了注意力机制模块,细化提取的特征图,提高网络的分类性能。

08-空间信息感知语义分割模型的高分辨率遥感影像道路提取

        由于受到网络中卷积和池化等操作,基于深度学习的道路提取方法存在着空间特征和地物细节信息丢失等问题。

        本文设计了一种改进的道路提取语义分割网络模型,该网络以改进的ResNet网络为主体,并引入坐标卷积和全局信息增强模块,用于增强空间信息和全局上下文信息的感知能力,突出道路边缘特征进而确保道路分类的精确性。 

09-面向小目标提取的改进DeepLabv3+模型遥感图像分割

        针对DeepLabv3+模型在遥感影像语义分割中呈现出小尺度地物语义信息丢失、数据类别不均衡引起误差等缺陷,提出了一种面向小目标提取的改进DeepLabv3+语义分割模型。

        首先,在模型编码器空间空洞金字塔池化(ASPP)中引入多组并行空洞卷积和感受野融合策略;其次在模型解码器部分加入特征注意力融合模块;最后使用加权的Lovasz-softmax loss优化损失函数。

10-融合注意力机制及DenseASPP改进的DeepLabv3+遥感图像分割方法

        由于遥感影像分辨率的提高,卷积层需要更大的感受野来捕获语义信息。DeepLabv3+模型在使用较大空洞率时会出现空洞卷积低效或失效的问题,同时该模型依靠卷积运算捕获的是局部信息,难以建立长距离依赖。

        本文设计了一种基于DeepLabv3+的改进模型,在原模型中添加金字塔拆分注意力模块(PSA),通过金字塔结构,使网络关注关键信息,帮助模型提取像素级多尺度空间信息的同时建立长距离依赖关系。同时将空间空洞金字塔池化模块(ASPP)替换为密集空间空洞金字塔池化模块(DenseASPP),帮助网络利用更多像素,获得更大感受野,得到更密集的特征金字塔,并避免了空洞卷积低效或失效的情况发生。

11-一种改进DeepLabv3+网络的高分辨率遥感影像道路提取方法

        针对现有的道路提取方法普遍注重区域精度而边界质量缺失考虑的问题,提出一种基于DeepLabv3+语义分割神经网络的深度学习提取道路的方法。该网络模型采用编码器-解码器网络和多孔空间金字塔池化(ASPP)相结合的方法,增强了对道路边界的划分效果。

二、建筑物提取 

01-基于深度学习的高空间分辨率遥感影像建筑屋顶提取方法

  • 基于ResNet改进的U-Net的建筑屋顶提取
  • 基于ResNeXt改进U-Net++的建筑屋顶提取
  • 基于图像相似度的样本选择优化方法 

02-基于深度学习的无人机影像农村建筑物提取研究

        Mask R-CNN中,针对不同的特征提取网络ResNet-34/50/101,进行测试。

        将具有多尺度残差单元的Res2Net网络替换Mask R-CNN原有的特征提取网络,并对其进行训练测试。

        对模型的输出分支进行修改,用于输出每个建筑物的轮廓,并将输出的结果进行矢量化,通过GIS领域中经典的道格拉斯-普克算法对建筑物的轮廓线进行简化,得到经过修正的建筑物轮廓。

03-基于深度学习的高分辨率遥感影像建筑物提取研究 

        提出了E-Unet模型。在U-Net基础上引入跳跃连接以减少边缘和转角的细节损失;模型采用新设计的卷积模块,使其扩大感受野的同时减少参数量;模型底层增加DropOut模块避免网络发生过拟合现象;引入了空洞卷积池化金字塔;解决了输入波段数量限制问题。

        提出了一种使用深度学习方法提取建筑物的通用模块:预模块。预模块在输入网络前对图像进行处理,处理结果将与原图合并后作为多波段影像一起输入深度学习网络。提升提取结果精度。该模块最终决定由主成分变换、波段间比值和Canny边缘算子组成。

04-基于深度学习的遥感图像建筑物提取方法研究 

        本文提出一种基于深化空间模块的U型特征提取网络。首先利用缓慢的上下采样方式和长跳跃连接的结构获取不同深度的特征图,减小高低维特征图间的信息鸿沟。再引入深化空间模块,激活通道和空间维度的重要特征,帮助网络建立类别特征联系。

        感受野受限问题会无法平衡利用尺度差异大的建筑物的特征信息,大型建筑物提取不完整。本文提出一种基于编解码器结构的自适应筛选特征网络ASF-Net。基于深化空间模块优化上采样结构,扩展其通用性,帮助网络定位建筑和构建边界。在此基础上本文提出自适应信息利用块来扩大感受野,捕获深度特征映射,其包含一条用于自主筛选有效信息的自适应通道分支。

        高分辨率导致像素级标注数据集耗费成本大的问题,本文提出一种基于类激活映射的单阶段弱监督方法。分类分支通过骨干网络计算类别权重,获得类激活映射图,经过精细化后处理生成伪标签。再分割分支在骨干网络的瓶颈处引入瓶颈注意力机制,增强高低维特征图的上下文信息。引入联合损失函数与像素级交叉熵损失合作,优化整个网络。

05-基于深度学习的多场景下建筑物提取研究 

        针对复杂场景下建筑物提取存在的梯度爆炸和位置信息容易被忽略的问题,本文构建了U-Net网络改进模型,在U-Net网络的编码器部分加入残差结构ResNet-50,用来缓解网络层不断加深带来的梯度爆炸问题;加入坐标注意力模块(CAM),利用该模块考虑通道间的关系和特征空间的位置信息,进而对模型收集位置信息的能力进行改善,利用更深层卷积神经网络的编码器获取到的丰富的图像特征信息。

        针对仅依靠增加图像特征及位置信息不能有效提升图像分割精度的问题,首先在PSPNet网络结构中加入膨胀卷积模块,融合图像的深浅层特征,获得上下文信息以及全局和局部特征信息;然后加入空间金字塔池化(SPP),对网络特征提取的泛化能力进行增强。

06-基于深度学习的复杂场景下建筑物提取方法研究

        本文提出一种融合多特征改进型PSPNet模型,在PSPNet网络的基础上,加入膨胀卷积模块并融合图像的深层和浅层特征,可获取结合上下文信息及全局和局部特征信息,从而提高建筑物的提取结果精度。

        残差U-Net通过更深层卷积神经网络的编码器网络获得丰富的图像特征信息,有效提升建筑物的提取精度。

07-融合类别语义特征的卷积神经网络建筑物提取

        针对当前基于卷积神经网络的建筑物提取方法在数据输入层对建筑语义信息利用不足的问题,提出一种融合类别语义特征的卷积神经网络建筑物提取方法。首先从影像上提取形态学建筑指数,该指数能够直接表征建筑覆盖信息,是一种高层次的语义特征;然后将该建筑语义特征作为原始影像的补充通道一起输入到卷积神经网络模型中训练,从数据层进一步增强建筑与背景的可分性。

08-IEU-Net高分辨率遥感影像房屋建筑物提取

        本文基于深度学习,提出了高分辨率遥感影像房屋建筑物像素级精确提取方法。首先,针对样本图像边缘像素特征不足现象,以U-Net模型为基础提出IEU-Net模型,设计了全新的忽略边缘交叉熵函数IELoss并将其作为损失函数,另外添加Dropout和BN层在避免过拟合的同时提高模型训练速度和鲁棒性。其次,为解决模型特征丰富度有限的问题,引入形态学建筑物指数MBI,与遥感影像RGB波段一同参与到模型的分类过程。最后,在模型预测时与IELoss相对应采用忽略边缘预测策略从而获得最佳建筑物提取结果。

09-优化Mask-RCNN的高分遥感影像建筑物提取 

        针对从背景复杂、目标密集的高分遥感影像上提取建筑物精度较低的问题,提出了一种基于优化Mask R-CNN的高分遥感影像建筑物提取算法。优化算法以ResNet-50为特征提取主干网络,通过添加更多的横向连接以及自下而上、自上而下路径的方式优化FPN,提高算法的特征提取能力,并利用Soft-NMS优化原始NMS算法改善提取结果。 

10-Res_ASPP_UNet++:结合分离卷积与空洞金字塔的遥感影像建筑物提取网络 

        针对连续池化操作丢失低层语义信息而导致建筑物提取精度低的问题,尝试以UNet++网络为基础,通过将编码器的标准卷积及最大池化替换成深度可分离卷积,以及在编码器末端利用不同采样率的空洞卷积构建多尺度空洞空间金字塔结构(ASPP)来提升网络性能,并将改进后的建筑物提取网络称为残差空洞空间金字塔网络(Res_ASPP_UNet++)。 

11-非对称卷积金字塔残差网络的遥感影像建筑物提取 

        针对建筑物提取中存在微小建筑物提取不完整,建筑物边界提取不准确等问题,以ResNet为基础,将残差模块与Inception-V3模块嵌套,然后进行金字塔池化来改善网络分割性能,并将改进的神经网络模型称为非对称卷积金字塔残差网络(In_PPM_ResNet)。该模型兼具三者的优势,残差模块能解决网络退化问题,Inception-V3模块中使用非对称卷积减少参数量,节约运算资源,多路径级联增加网络宽度;金字塔池化模块获取不同尺度信息,扮演加强特征提取角色。

12-基于注意力增强全卷积神经网络的高分卫星影像建筑物提取 

        采用一种基于注意力增强的特征金字塔神经网络方法(FPN-SENet),利用多源高分辨率卫星影像和矢量成果数据快速构建大规模的像素级建筑物数据集(SCRS数据集),实现多源卫星影像的建筑物自动提取。 

13-基于FPN的高分辨率建筑物图像的语义分割 

        提出一种基于特征金字塔结构的BuildingNet网络,并引入了空洞空间金字塔池化模块,使得该网络具有针对不同分辨率图像的良好特征提取性能。另外设计了一种改进的Lovasz损失函数训练所提出的网络,有效提高了提取结果的图像质量。 

14-基于注意力机制与DUsamplingU-Net网络的建筑物提取 

        针对常用语义分割模型因神经元接受域大小固定导致特征提取不充分、双线性上采样无法精确恢复像素级预测等问题,提出基于卷积核注意力机制和DUsampling(data-dependent upsampling)的卷积神经网络改进算法。算法引入卷积核注意力机制,利用选择性卷积核提取图像整体与局部细节特征,加强网络对建筑物特征的学习能力;在合并特征图之前将待融合的特征向下采样到特征图最低分辨率,通过DUpsampling分割标签空间的冗余准确地恢复像素级的预测;最后结合卷积核注意力机制与DUpsampling构建SD-Unet模型。

15-融合空间置弃层的U-Net高分影像建筑智能解译 

        针对传统基于光谱和面向对象的建筑物提取方法多噪声和边缘羽化严重,标准U-Net高分遥感影像解译计算开销大等问题,提出了一种改进方法。该方法通过修改标准U-Net输入样本尺寸、卷积核数量和卷积层数量,基于Adam最优化算法,采用逐维度加和特征融合取代沿通道维度联合特征融合,并首次将空间置弃层引入标准U-Net中用于提高模型效率和改善目标边缘精度。

16-SARBuD1.0:面向深度学习的GF-3精细模式SAR建筑数据集 

        本文建立了一个面向深度学习建筑区提取的中高分辨率SAR建筑区数据集SARBuD1.0(SAR BUilding Dataset)。该数据集包含了覆盖中国不同区域的27景高分三号(GF-3)精细模式SAR图像,并从中获取了建筑区共计 60000个SAR样本数据,结合光学图像与专家解译,制作了与样本数据对应的标签图像。SARBuD1.0数据集包含了不同地形场景类型、不同分布类型、不同区域的建筑区。该数据集可支持研究者对建筑区进行图像特征分析、辅助图像理解,并可对当前热点深度学习方法提供训练、测试数据支持。本文以山区建筑为例,使用传统纹理特征与深度学习特征对建筑区进行了特征分析与比较,相比于传统的人工设计的纹理特征,卷积神经网络具有更深、更多的特征,利用网络模型浅层的不同卷积核采样可得到各种纹理特征,在网络的深层卷积结构中可获取代表着类别的深层语义特征,使得分类器能更好地检测并提取图像中指定的目标。基于本数据集利用深度学习方法对不同地形区域的建筑区进行提取实验。实验结果表明基于本数据集训练的深度学习模型,对建筑区提取可以取得良好的结果,说明该数据集可以很好支持面向大数据的深度学习方法。 

17-边缘增强的EDU-Net遥感影像建筑物提取 

        提出一种边缘增强型EDU-Net深度学习网络,在EDU-Net结构设计中,通过构建边缘特征约束模块,结合Sobel边缘检测图细化建筑物边缘特征;同时,基于二次强化策略提升模型对建筑物边缘信息的表征学习能力。

18-基于改经PSPNet的卫星遥感图像建筑物语义分割算法 

        针对卫星遥感图像中的建筑分割算法对特征相似的小目标建筑识别效果差以及对大目标建筑轮廓边缘分割精度低的问题,基于PSPNet算法,结合Swin Transformer主干网络和特征金字塔融合局部特征以及通道和空间注意力机制,提 出 一 种 改 进 的PSPNet算 法,实现对卫星遥感图像中的建筑高精度分割。首先,将原始 PSPNet算法的主干网络ResNet-101替换为Swin Transformer以增加主干网络的全局特征提取能力;其次,以主干网络输出多层级特征图并结合特征金字塔融合模块获取图像的局部语义信息;最后,将全局信息和局部信息融合并送入通道注意力以及空间注意力模块CBAM,使其在空间和通道两个维度都能获得丰富的语义信息。

19-基于不同深度学习模型提取建筑物轮廓的方法研究

        研究基于北京二号高分辨率(0.8m)遥感数据,建立了北京市建筑轮廓样本库,利用多种语义分割模型U-Net、DANet、UA-Net(U Attention Net)和实例分割模型Mask R-CNN、Mask R-CNN FPN、Mask R-CNN RX FPN来提取城市建筑轮廓并开展精度评价,通过对比不同类型建筑(如楼房、别墅及村庄建筑等)的提取效果,最终选择整体精度最高且提取效果最好的U-Net模型提取了北京市域的所有建筑轮廓。 

20-新型语义分割D-UNet的建筑物提取 

        为了解决高分辨率卫星影像语义分割边界模糊和信息丢失的问题,本文提出了一种端到端的卷积神经网络Dilated-UNet。首先,通过改进U-Net网络结构,采用Dilation技术拓展四通道的多尺度空洞卷积模块,每个通道采用不同的卷积扩张率来识别多尺度语义信息,从而提取更丰富的细节信息。其次,设计了一种交叉熵和Dice系数的联合损失函数,更好的训练模型以达到预期分割效果。 

三、综述 

01-无人机航拍影像目标检测与语义分割的深度学习方法研究进展

        概述了无人机及其航拍影像的特点和广泛的应用场景,简述了无人机航拍影像目标检测与语义分割方法的发展历程,对基于深度学习的无人机航拍影像目标检测与语义分割方法按照不同的网络模型进行分类,分别总结了改进策略、应用场景、贡献和局限性。收集梳理了近些年无人机航拍影像数据集,评价指标,支出本领域存在相关问题,未来研究趋势。

1)、语义分割发展历程

        在语义分割方面,FCN在抽象的特征信息中恢复出每个像素的所属类别,即从图像级的分类进一步延伸至像素级。仍存在分类结果不够准确,对图像中细节信息不敏感,像素之间相关性考虑不足等问题。在后续的研究中,已提出了多种更加优秀的网络结构,其中常见的语义分割模型包括U-Net、SegNet和Mask R-CNN等。

2)、无人机航拍影像语义分割的深度学习算法

        SegNet解决FCN结果不够准确,图像细节信息不敏感的问题。编码和解码部分由13个卷积层与5个上采样层组成,并且使用池化索引对特征图进行上采样处理,这有利于保留更多的物体轮廓信息,帮助图像重建。但是容易忽略邻近像素间的相关性。

        U-Net模型可以划分为特征提取网络与特征融合网络,分别对应为编码器与解码器。其中,编码器用于获取图像中物体对应的语义信息,然后解码器将特征恢复至输入尺寸,得到最终的预测结果。U-Net采用完全对称的U型结构,有助于特征间的相互融合,但是在实际分割中,大物体的边缘信息和小物体本身很容易在深层网络中因下采样操作而丢失。

        Mask R-CNN在Faster R-CNN算法的基础上增加了全卷积神经网络以生成对应的掩膜分支,使用RoIAlign层,很好地保留了特征点准确的空间位置,有助于提升掩膜的精度。

3)、主要问题

  • 模型轻量化问题
  • 小目标检测效果不理想
  • 复杂背景干扰的问题
  • 影像视场大的问题
  • 目标分布不均的问题
  • 数据集中样本类别不平衡

4)、展望 

  • 对模型优化可以更多关注计算复杂度和检测速度等因素。
  • 在模型的特征提取部分,大多使用的多层堆叠残差网络。如何对传统的残差结构进行优化,加强对小目标的特征提取能力。
  • 使用注意力模块来排除复杂背景的干扰,提升模型的检测性能。通道注意力与空间注意力模块。
  • 对于处理大视场影像中的多尺度目标问题,采用特征金字塔结构是一种常见的解决方法。如FPN、PANet、NAS-FPN和BiFPN等金字塔结构。加强不同尺度特征的融合,加强特征重用和特征提取。
  • 模型优化器选择可以尝试自适应与自适应方法相结合的策略优化网络模型参数。
  • 数据集制作使用多种不同来源的综合数据验证模型,避免单一类别和单一背景下收集而来的图像。 

02-基于深度学习的图像分割综述 

        提供了近两年发表在文献中基于深度学习的图像分割研究的全面回顾。首先对图像分割常用数据集进行了简要介绍,接着阐明了基于深度学习的图像分割的新分类,最后讨论了现有挑战,对今后研究方向进行了展望。 

1)、基于深度学习的图像分割技术进展分类

  • 基于网络结构的改进
  • 基于数据的改进
  • 基于评价机制的改进 

2)、挑战与展望 

  • 对象边界:有效处理小物体形状和具有边界物体的分割。
  • 多模态:多模态数据研究探索不同模式的信息融合。
  • 可解释性:理解和解释深度学习模型对图像进行分割的过程和结果,有助于提高模型的鲁棒性、可靠性和可信度。

03-高空间分辨率遥感影像建筑物自动提取方法综述 

        本文对常见的高分辨率遥感影像建筑物提取方法进行了分类和总结,比较了各种提取方法的应用范围、优缺点及改进措施。 

1)、基于人工设计特征的传统建筑物提取方法 

基于像元特征的建筑物提取

  • 基于边缘的提取方法
  • 基于角点匹配的提取方法
  • 基于阴影的提取方法 

面向对象的建筑物提取方法 

  • 基于多尺度分割的提取方法
  • 基于区域分割的建筑物提取方法
  • 基于图像分割的建筑物提取方法 

2)、基于深度学习的建筑物提取方法 

        从全卷积神经网络FCN的开山之作开始,越来越多的模型被设计出来,按照模型结构设计理念的不同,大致归类为融合多尺度特征、拓宽网络深度、添加注意力机制以及采用空洞卷积策略等。

融合多尺度特征

        建筑物具有多尺度特征,经过多次下采样后尺度较小的建筑物可能被忽略,且在上采样中不能完全恢复原始信息,最终在预测结果中出现小建筑物缺失和大型建筑物空洞或连续问题。

        采用融合多尺度特征的策略能够提升预测结果的性能,其中以U-Net网络为多尺度特征融合的典型代表。结合U-Net具有多尺度和特征金字塔多预测输出的特点提出了SU-Net实现跨尺度特征聚合,提高对多尺度建筑物的分析能力,但是存在建筑物边界不规则现象。将原始影像直接进行不同尺度的下采样和通过卷积操作得到不同尺度的建筑物特征相加合并,并且采用SegNet网络中的上采样代替全连接层,有效解决大型建筑物的空洞现象。

拓宽网络深度

        深层网络能够提取更加抽象的语义特征,使模型具有更强的泛化性。但是会引来模型退化和梯度消失问题。

        在深度残差网络基础上添加U-Net模型的解码块构成Res-U-Net,提取深层的语义特征,并使用引导滤波作为后处理,去除椒盐噪声,优化建筑物提取结果,提高提取精度。融合多尺度信息的同时提高计算效率提出一种SRI,该模型采用ResNet-101网络为主干添加空洞卷积与深层可分离卷积和卷积因子分解来优化模型的计算量,增强了大型建筑物检测效果。

采用空洞卷积策略 

        空洞卷积也称为膨胀卷积,通过设置不同的膨胀率来扩大卷积核尺寸,目的是保持空间分辨率的同时扩大感受野来更好地整合上下文信息,避免因下采样操作带来的信息丢失问题,提高模型对全局信息的分析能力。

        针对建筑物提取结果存在缺失和不完整问题提出建筑物残差细化网络BRRNet,该网络由预测模块和残差细化模块两部分构成,预测模块采用ResNet为主干网络并引入不同膨胀率的空洞卷积来获取全局特征,残差精细模块是一个更轻量级的空洞卷积网络,将预测模块的结果作为输入,优化预测模块提取结果,从而提高建筑物提取精度。

添加注意力模块

        注意力机制的本质是通过对输入样本计算注意力分布后加权平均,提高建筑物信息的权重,减小或删除其他背景地物信息的权重,从而抑制背景信息的干扰,提高区分建筑与背景信息的能力。

        基于注意力块的多重损失神经网络,凸显建筑物特征、抑制无关背景区域的影响,提高模型的灵敏度,改善建筑物边界不规则现象,然而该方法对尺度较小的建筑物存在误分类现象。

        结合多个网络结构设计Res_AttentionUnet结构,该模型将U-Net与残差结构进行集成后添加注意力机制。

04-深度学习背景下的图像语义分割方法综述 

        本文介绍了语义分割概念、相关背景和语义分割基本处理流程。DeepLabv3+网络在分割精度和速度方面都具有良好的性能。

1)、面向2D数据的语义分割方法

基于候选区域的图像语义分割方法

        R-CNN、SDS、MPA和Mask R-CNN。

        R-CNN通过Selective Search算法提取候选区域,既能够进行目标检测,也可以完成语义分割。SS算法将候选区域的尺寸设置为227x227像素,之后再利用卷积神经网络提取每个候选区域的特征,基于所提取的特征,利用支持向量机对其进行分类,最终得到语义分割结果。缺点就是对候选区域具有较高的依赖性、语义分割精度较低、不能实时分割。

        在R-CNN算法基础上加入了SDS网络,SDS网络能够采用MGG算法在候选区域和区域前景中自主提取语义特征,再交替训练所提取的两部分语义特征,最后运用非极大值抑制方法进行区域增强。MGG算法对输入图像的像素大小不设限制。此工作的贡献在于扩展了算法的适用范围,且提高了语义分割性能。

        将ROI与分割子网络加入了Faster R-CNN算法,提出了Mask R-CNN算法,Mask R-CNN可以完成目标检测和实例分割。Mask R-CNN主干由两部分构成,第一部分为Faster R-CNN,其主要功能是对候选区域进行分类和回归,从而实现目标物体的高效检测;第二部分通过一个小型全卷积网络完成实例分割任务。

        基于候选区域的图像语义分割方法具有以下优缺点:

优点

  • 使用目标检测技术生成的候选区域,可以同时完成目标检测任务和语义分割任务。

缺点

  • 分割过程对候选区域过于依赖,不能充分地考虑图像中的全局语义信息,分割图像中的小物体或小面积区域时效果不理想。

全监督学习图像语义分割方法

        全监督学习图像语义分割方法即采用人工提前标注过的像素作为训练样本。

  1. 人工标注数据,给图像的每一个像素预先设定一个语义标签;
  2. 运用已标注的数据训练神经网络;
  3. 语义分割。

         FCN算法以全监督学习的方式分割图像,输入图像的大小不受限制,能够实现端到端的像素级预测任务。但是池化层会使得特征图的分辨率下降,也会导致某些像素的位置信息损失;上采样处理会使得结果模糊,不能很好地理解图像的细节信息;分割过程离散,不能充分地考虑像素上下文语义信息,故无论是局部特征还是全局特征利用率均不高。

        基于全卷积的扩张语义分割算法,能够扩大感受野并且不增加参数量,代表算法有DeepLabv1、DeepLabv2、DeepLabv3和DeepLabv3+。

        基于全卷积的对称语义分割算法,对称结构的语义分割网络是解决“池化处理会使得特征图分辨率会下降、部分像素空间位置语义信息缺失”问题的一类重要方法。对称结构的语义分割网络也叫做基于编码器-解码器的网络,该方法的原理是通过深度学习中的卷积、池化等步骤组成编码器来提取图像特征,然后通过反卷积、上池化等步骤组成解码器来恢复图像的一系列像素特征。总体来说,基于全卷积的对称语义分割网络主要:还原图像的空间维度和像素的位置信息,解决池化操作后特征图分辨率降低的问题;缺点是网络训练参数过多,计算量大,无法实现实时分割。

        基于特征融合的算法,特征融合的主要思想是兼顾考虑图像的高级特征、中级特征、低级特征以及全局特征、部分特征,通过对各层次、各区域特征的融合来更好地获取图像深层的上下文信息,其能够对图像的上下文信息进行整合加工,提高各种特征的利用效率,以解决之前算法运算量大,训练时间长的问题。

        基于循环神经网络的算法,能够对历史信息进行递归处理;能够对历史记忆进行建模。图像语义分割过程中通过循环神经网络可以更好地捕获上下文信息,更充分地利用全局特征和局部特征。基于循环神经网络地图像语义分割处理,首先图像通过卷积神经网络提取特征,然后将特征图传送到循环神经网络中捕获上下文信息,用RNN层序列化像素,分析像素之间的依赖关系后得到全局语义特征,最后通过反卷积上采样得到分割结果。

        基于生成对抗网络的算法,在图像语义分割过程中,用生成对抗网络获取上下文信息可以解决CRF运算量大、内存占用过高和训练时间长等问题。基于生成对抗网络地语义分割算法基本结构框架中,生成器网络一般是FCN、SegNet或PSPNet等分割网络,图像输入以后先经过生成器生成大量的人造样本,再将检测数据集输入判别器网络,判别器网络会对人造样本和检测数据集学习,并进行对抗训练。当样本的真假被输出后,生成器网络和判别器网络会自动进行修正调节,迭代训练过程中会不断提高生成器的分割准确率和判别器的判断能力。基于生成对抗网络的算法能够生成样本并且判断真假,可以解决卷积神经网络、全卷积网络进行语义分割时的一些问题。但是该类算法在进行大规模训练时效果并不好。

        基于注意力机制的算法,注意力机制主要用在自然语言处理领域,把注意力机制融入语义分割算法,突出的贡献就是可以在大量的语义信息中捕获最关键的部分,更加高效的训练分割网络。自注意力机制模型的分割效果远远优于通道注意力机制模型。

弱监督学习图像语义分割方法 

        全监督学习的图像语义分割方法在图像语义分割领域占了很大比例,卷积神经网络、全卷积网络等的应用取得不错的效果。但是制作像素级精确标签图像的过程成本很大,往往需要花费大量时间去进行人工标注。弱监督学习语义分割方法使用弱标注的图像训练分割模型。弱标注数据相较于像素级标注人工操作较少,比较容易获取。

        基于边界框标签的方法,边界框的标注过程需要的时间较少,该类方法的训练样本即为边框级标注图像,分割效果并不比全监督学习的语义分割方法差很多。

        基于简笔标签的方法,语义分割流程简洁明了,制作训练样本的成本也较低。

        基于图像级标签的方法,其训练样本不用进行像素标注,制作成本非常低,故成为弱监督学习语义分割的主流方法。图像级标注的缺点只是标注了语义的种类信息,而对语义形状没有进行标注。

        基于点标签的方法,图像级标签与点标签的不同之处仅在于点标签需要一个“点”大致标记目标的中心位置,基于点标签的方法分割性能远远优于基于图像级标签的方法。 

2)、实验总结 

        其中DeepLabv3+网络的分割精度最高,并且分割速度较快,具有较高的应用价值。

05-深度学习多模态图像语义分割前沿进展 

        图像语义分割旨在将视觉场景分解为不同的语义类别实体,实现对图像中每一个像素的类别预测。多模态图像语义分割通过联合利用不同模态图像间的互补特性,能够全面且准确地实现复杂场景信息的学习与推理。

1)、深度学习RGB-T图像语义分割模型

        编码器-解码器结构是基于深度学习的图像语义分割方法中最为常用的范式,其中编码器用于提取图像特征,解码器用于图像特征恢复以及分割结果预测。目前绝大多数基于深度学习的RGB-T图像语义分割模型也都延续了编码器-解码器结构的设计,并在此基础上针对如何有效利用多模态图像间的互补特性进行深入研究。

        基于深度学习的RGB-T图像语义分割可以看做是一个典型的流水线处理过程,包含单模态图像特征提取、多模态图像特征融合和语义分割结果预测3个步骤。依据算法侧重点不同,本文将目前已有的基于深度学习的RGB-T图像语义分割方法划分为3类,即基于图像特征增强的方法、基于多模态图像特征融合的方法和基于多层级图像特征交互的方法。

基于图像特征增强的方法 

        基于图像特征增强的方法通常通过注意力机制以及辅助信息嵌入等方式,直接或间接地增强单模态图像特征或多模态图像融合特征中高鉴别力信息的同时降低干扰信息的影响,进而提升语义分割精度。 

基于多模态图像特征融合的方法 

        基于多模态图像特征融合的方法主要关注如何有效利用RGB图像特征与热红外图像特征之间的互补特性,进而充分发挥多模态图像的优势。与单模态图像语义分割任务相比,特征融合是多模态图像语义分割任务所特有的。因此,现有的大多数RGB-T图像语义分割方法主要针对多模态图像特征融合策略展开研究。

基于多层级图像特征交互的方法 

不同尺度的感受野能够提取场景中不同尺寸目标的信息,因此,多层级图像特征的交互有助于捕获丰富的多尺度上下文信息,进而显著提升语义分割模型在目标尺度多样场景下的性能。基于多层级图像特征交互的方法在单模态图像语义分割领域已经得到广泛的应用,在RGB-T图像语义分割任务中,也有一些工作利用此类方法,取得良好结果。

其他方法 

        知识蒸馏是深度神经网络模型压缩技术中的代表性方法之一,其将一个复杂深度神经网络模型学习到的知识迁移至另一个轻量级模型中,在保证性能的情况下实现模型轻量化。其中,复杂深度神经网络模型称为教师模型,而轻量级模型称为学生模型。一个完整的知识蒸馏系统包含知识、蒸馏算法以及师生架构3个关键部分。

        具体来说,该方法首先通过一个在白天场景预训练的RGB图像语义分割教师模型进行监督,再由一个经过夜间场景预训练的热红外图像语义分割教师模型进行可选的监督。最后,引入对抗学习策略,通过最小化域鉴别器的域混淆损失,以减小白天和夜间图像之间的域差异,进而实现白天场景到黑夜场景的知识迁移。

2)、常见RGB-T语义分割模型性能比较

  • 21
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IAz-

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值