语义分割论文阅读笔记5

Automatic sewer pipe defect semantic segmentation based on improved UNet,2020,SCI Q1

论文地址

摘要

目前,基于深度学习方法的下水道缺陷自动化检测技术发展迅速。在本研究中,提出了一种称为 PipeUNet 的新型语义分割网络,用于下水道缺陷分割。为了增强特征提取能力并解决高层和低层特征之间的语义差异,在U-Net的原始跳跃连接之间添加了一个名为特征重用和注意机制块的新模块。采用焦点损失来解决类别不平衡问题。 PipeUNet 使用具有典型缺陷的闭路电视图像进行训练,包括裂纹、渗透、接头偏移和横向侵入。通过缺陷图像和正常图像进行测试,分别评估网络的缺陷分割和检测性能。它实现了 76.37% 的最高平均交集率,证明了该方法的效率。它可以以每秒 32 幅图像的高速处理闭路电视图像。

引言

各种技术已被开发并应用于下水道检查。最近的一项调查对这些方法进行了总结,并将它们分为视觉方法、电磁方法、声学方法和超声波方法。凭借成本效益高且操作简单的优点,CCTV 是一种广泛采用的下水道管道内表面检查技术。安装在载体上的CCTV摄像机和照明装置是CCTV巡检系统获取下水管道内部信息的主要工具。然而,检查人员需要以停止检查的方式进行检查,以检查潜在的感兴趣区域,这大大减慢了检查过程。此外,由于目前实践中缺乏相关的图像分析方法,管道缺陷识别及其严重程度评估耗时、容易出错且主观性强。因此,近年来出现了一些基于计算机视觉技术实现CCTV图像中下水道管道缺陷自动检测的研究,如基于图像分类、目标检测和语义分割的方法。图像分类和目标检测主要提供图像上缺陷类型和位置的信息,而语义分割还可以提供缺陷形状和边界。 因此,它是自动严重程度评估的一个重要步骤,目前研究很少
近年来,基于深度学习的方法,如全卷积网络(FCN)、Segnet 、deeplab 、全局卷积网络和U-Net 已被开发用于自动语义分割。其中,U-Net是一种经典的语义分割网络,最初是为生物医学图像处理而设计的。通过将高分辨率特征与上采样输出相结合,U-Net 能够更准确地分割边界,并且参数更少,这使得它可以用少量数据进行训练并进行高速测试。尽管U-Net因其优异的性能而在许多其他领域得到了广泛的应用,但它从未被引入下水道缺陷分割中

引出方法

本研究旨在提出一种名为PipeUNet(使用U-Net作为主干网络)的语义分割网络,它可以高速、准确地检测缺陷的类型、位置、形状及其边界。在 PipeUNet 中,引入了一个名为特征重用和注意机制(FRAM)块的新模块,并将其添加到 U-Net 的原始跳跃连接之间。 FRAM块计算量轻,利用特征重用和注意力机制的思想来增强网络的特征提取能力,并解决高层特征和低层特征之间的语义差异。同时,利用焦点损失来解决类别不平衡问题。

方法

PipeUNet采用语义分割网络U-Net作为骨干网,可以用少量的训练数据进行训练并在短时间内收敛。为了增强原始跳跃连接的特征提取能力,在编码器和解码器网络之间添加了FRAM块。解码器的每个卷积层之后都跟随批量归一化层,以加速网络训练。此外,注意力机制焦点损失分别用于减少噪声干扰类别不平衡问题
在这里插入图片描述

  • FRAM block
    U-Net 通过分别位于最大池化层和反卷积层之前和之后的相应层之间的跳跃连接将高分辨率特征与上采样输出相结合。这些连接减少了池化过程中丢失的信息,组合特征也可能存在语义差距。此外,下水道检查领域所需的网络必须具有较强的特征提取能力。因此,本研究在原始跳跃连接之前添加了FRAM块,以增强特征提取能力并减少语义差距。具体来说,FRAM 块由连接操作、注意力机制块和普通卷积组成。为了减少网络参数并提高网络训练速度,仅在前 3 个跳跃连接之前添加 FRAM 块。
    在这里插入图片描述
    –特征重用
    增强特征提取能力的一个重要途径是直接增加网络的深度和广度。然而,这会导致网络中存在大量参数,需要大量数据来训练模型,并且会大大降低网络速度。实际上,管道检测领域缺乏标记数据通常使得这种方法不可行。通过连接不同层的特征来增强特征重用是解决这个问题的可行方案。而U-Net原来的skip连接就采用了这种方式。但中间卷积获得的大量特征仍未得到充分利用,而这些特征也很重要。因此,在FRAM块中,连接了两个重复的3×3卷积,然后添加了3×3卷积层,以减少编码器和解码器之间的大语义差距。新添加的卷积的设置与相应收缩路径中的两个3×3卷积相同。
    在这里插入图片描述
    –注意力机制
    虽然特征重用可以帮助网络获得尽可能多的图像特征,但由于原始闭路电视图像的高噪声、复杂背景和低照度,这些捕获的特征大多数通常是负的。这些负面特征使训练过程效率低下,因为它们没有提供有用的学习信号。注意力机制为解决这个问题提供了一种可行的方法。将注意力机制应用到输入序列上,就是对输入序列的不同部分分配不同的注意力。在 PipeUNet 中,将注意力机制建模与 CNN 集成的挤压和激励(SE)块被添加到连接操作和普通卷积层之间的 FRAM 块中,以区分重要特征并减少低层中的背景噪声干扰语义特征图。SE块通过调整作为卷积层输出的多维特征图中每个维度特征的权重比例来实现注意力机制。同时,它结构简单,参数少,易于训练。

  • 损失函数
    类不平衡是目标检测、图像分类和语义分割领域的常见问题。类之间的不平衡会影响训练阶段的收敛以及训练模型在测试集上的泛化。不平衡问题通常会导致传统方法偏向多数类别,而对少数类别的准确性较差。
    在本研究中,PipeUNet使用焦点损失作为损失函数,解决了一阶段目标检测中正负样本严重不平衡的问题。在本实验中,缺陷内部的像素用1表示,而背景的像素用0表示。焦点损失可以计算如下:
    在这里插入图片描述

实验及结果分析

  • 数据集
    原始实验数据来源于天津市市政工程设计研究院采集标注的CCTV下水道缺陷检测报告。
    为了更好地判断模型的整体分割性能,选取了crack裂纹、joint offset接缝偏移、infiltration渗透和 intruding lateral侵入侧向四种特定类型缺陷的图像进行实验。

  • 评价指标
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    areap 表示模型输出的分段缺陷,areag 表示groundtruth 的分段缺陷。

  • 对比实验
    各类别缺陷分割实验结果
    在这里插入图片描述
    PipeUNet 的准确性
    在这里插入图片描述
    PipeUNet的精度
    在这里插入图片描述

总结

本文通过改进用于下水道缺陷分割的U-Net架构,提出了一种新颖的语义分割网络PipeUNet为了增强特征提取能力并解决高级特征和低级特征之间的语义差异,在U-Net的原始跳跃连接之间添加了一个名为FRAM块的新模块。 PipeUNet中使用focal loss来解决类别不平衡问题
PipeUNet 通过多个下水道检测系统的数据进行训练和测试。这给下水道管道带来了显着的多样性,并对模型的鲁棒性提出了巨大的挑战。该数据集包含四种典型缺陷,包括裂纹、渗透、接缝偏移和侵入侧向。为了提高网络性能,在原始训练图像上依次使用数据增强,包括水平翻转、对比度归一化和随机裁剪。测试数据分为两部分,一部分仅包含缺陷图像以评估模型的分割性能,另一部分包含缺陷图像和正常图像以评估模型的缺陷检测性能。 PipeUNet 的 MIoU 在分割实验中达到最高值 76.37%,而 U-Net 仅达到 70.42%。从分割结果可以看出,该模型可以找到大部分缺陷的位置和边界。缺陷检测实验中准确率、精确度和召回率都很高,证明了网络在缺陷检测方面的可靠性。
然而,由于图像中远空间任何缺陷的干扰、管道中残留水的反射问题以及不同缺陷之间的混淆,仍然存在一些负分割。此外,少量的训练数据也可能对模型的性能产生影响。因此,这些问题需要今后进一步研究。

  • 22
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
图像语义分割是指对图像中的每个像素进行语义信息标注的任务。它广泛应用于自动驾驶、肝癌检测等领域。语义分割的难点主要来自物体层次、类别层次和背景层次。这意味着语义分割任务需要在复杂多变的背景下正确标记出语义信息,并区分具有高度相似外观的不同类别物体。\[1\] 在图像语义分割中,有传统方法和基于神经网络的方法。传统方法包括显式特征方法、基于概率图模型的方法和无监督学习方法。而基于神经网络的方法则隐式地建立了像素到语义的映射,不需要后期人工参与即可完成整个分割过程。\[2\] 深度学习模型在图像语义分割中起到关键作用。其中,全卷积网络(FCN)是语义分割深度学习模型的开山之作,它建立了一种用于图像语义分割的通用模型框架。FCN通过有效推理和学习,可以输入任意尺寸的图像,并生成相应尺寸的输出,实现像素到像素的映射。此外,FCN还提出了多项参数用于衡量模型的性能表现,如像素正确率、平均像素正确率、平均交叠率和平均加权交叠率。\[3\] 除了FCN,还有其他深度学习模型如PNPNet,它通过空间池模块和空间场景解析网络,利用不同区域的上下文聚合全局上下文信息的能力,为像素级预测任务提供了优越的框架。\[3\] 总之,深度学习模型在图像语义分割中发挥着重要作用,通过训练和优化参数,可以实现对图像中每个像素的语义信息标注。 #### 引用[.reference_title] - *1* *2* *3* [【论文阅读笔记】图像语义分割深度学习模型综述(张新明等)](https://blog.csdn.net/box0115/article/details/113395028)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值