图像分割的知识点

本文介绍了图像分割的不同类型,包括语义分割、实例分割和全景分割,强调了实例分割在遥感、自动驾驶、医疗等多个领域的应用。COCO、Cityscapes、MapillaryVistas和LVIS等数据集被用于训练和评估模型。文章还探讨了两阶段和单阶段实例分割方法,以及Transformer在实例分割中的作用。关键词涵盖了CNN、Transformer和实例分割模型如MaskR-CNN。
摘要由CSDN通过智能技术生成

目录

图像分割分类

实例分割应用:

数据集:

评价指标

两阶段的实例分割

单阶段实例分割

知识点

CNN与MLP区别

参数共享

Transformer 嵌入


图像分割分类

  1. 语义分割(Semantic Segmentation):

    • 目标:将图像分割为不同的语义类别,为每个像素分配一个语义标签。
    • 模型特点:通常使用卷积神经网络(CNN)作为主要的特征提取器和分割器。
    • 常见模型:U-Net、FCN(Fully Convolutional Network)、DeepLab 等。
    • 应用领域:场景理解、自动驾驶、医学影像分析等。
  2. 实例分割(Instance Segmentation):

    • 目标:将图像中的每个对象实例分割为不同的区域,为每个像素分配一个实例标签。
    • 模型特点:结合了目标检测和语义分割的思想,既需要识别对象实例的类别,又需要精确地分割每个实例。
    • 常见模型:Mask R-CNN、YOLOv4、Detectron2 等。
    • 应用领域:目标跟踪、智能监控、机器人导航等。
  3. 全景分割(Panoptic Segmentation):

    • 目标:将图像中的每个像素进行语义分割,并将每个对象实例与其对应的语义类别关联起来。
    • 模型特点:同时处理语义分割和实例分割的任务,并为每个像素分配一个语义标签和一个实例标签。
    • 常见模型:PanopticFPN、UPSNet、SOLOv2 等。
    • 应用领域:智能交通、虚拟现实、增强现实等。

实例分割应用:

        实例分割作为像素级别的目标识别任务,目 前已广泛应用在遥感影像[62-67] ,文字检测[68-70] ,人 脸检测[71-72] ,辅助驾驶系统[73-76] ,医疗图像处理[77-78] 等各个场景下。 遥感图像中需要对标的物体进行识别,进而 分析与测绘[79]。李澜[80] 将 Mask R-CNN 应用于高 分辨率光学遥感影像的目标检测和实例分割任务 中,目的是在地图上找到遗漏的地理实体并提高 矢量地图的质量。瑚敏君等[65] 在 Mask R-CNN 原 有的特征提取中每个层级的特征图后再增加一层 卷积操作。然后,在原有掩码预测结构的基础上 增加一个分支实现了高效、准确的高分辨率遥感 影像建筑物提取算法。王昌安[79] 则用于光遥感 影像中近岸舰船的检测任务。 辅助驾驶系统不仅需要在行驶过程中识别不 同的车道线,进行驾驶模式的决策,而且也需要 对周围的车辆、行人等进行分析,判断周围的驾 驶环境等这些都用到了实例分割[81-82]。邓琉元等[83] 针对无人驾驶中用到的环视相机所呈环形图像中 存在目标几何畸变难以建模问题,在 Mask R-CNN 中引入可变形卷积和可变形 ROI Pooling 来提升 网络对几何形变的建模能力以实现环视鱼眼图像 中准确的交通目标实例分割。蔡英凤等[73] 和田 锦等[74] 将实例分割模型用于车道线检测解决了 传统的车道线检测算法易受光照变化、阴影遮挡 等环境干扰的缺陷。最后,所提算法可以完成复 杂交通场景下的多车道线实时检测。除此之外, 陈健雄[84] 提出实例分割模型也可以有效识别中 低速磁浮列车上接触轨固件的松动状态,保证了 城市轨道交通的安全运行。 医疗图像处理需要对血管、骨骼、细胞等区 域进行分割与检测,帮助医生进行诊断和研究[81]。 同时降低误诊率和漏诊率,所以实例分割也是重 要的关键技术之一。赵旭[77] 研究基于实例分割 的乳腺超声肿瘤识别,分割出乳腺超声图像的肿 第 17 卷 智 能 系 统 学 报 ·24· 瘤区。郑杨等[78] 在 Mask R-CNN 中加入空洞卷积 完成宫颈细胞图像分割。吴宇[85] 则提出一个级 联的 3D 椎骨分割网络。 可见,实例分割应用已经非常广泛,都是建立 在两阶段 Mask R-CNN[13] 基础之上并有很好的算 法效果。未来,实例分割技术一定会有更大的发 展应用前景。

数据集:

COCO 数据集

COCO[87] 起源于 2014 年由微软出资标注的 Microsoft COCO 数据集,与 ImageNet 竞赛一样, 被视为是计算机视觉领域最受关注和最权威的比 赛之一。COCO 数据集是一个大型的、丰富的目 标检测,实例分割和字幕数据集。这个数据集以 场景理解为目标,主要从复杂的日常场景中截取, 图像中的目标通过精确的分割进行位置的标定。 图像包括 91 类目标,328 000 个影像和 2 500 000 个标签。目前为止有实例分割的最大且使用最广 泛的数据集,提供的类别有 80 类,有超过 33 万张 图片,其中 20 万张有标注,整个数据集中个体的 数目超过 150 万个。使用时划分为训练集、验证 集和测试集 3 个部分,已成为比较实例分割算法 性能最重要的公开数据集。

 Cityscapes 数据集

Cityscapes[88] 是一个大规模城市场景数据集, 主要用于语义分割任务,拥有 5 000 张在城市环境 中驾驶场景的图像(2 975 张训练集,500 张验证 集,1 525 张测试集)记录了 50 个不同城市的街道 场景。它具有 19 个类别的密集像素标注(97% coverage),其中 8 种类别具有实例级别分割标注。

Mapillary Vistas 数据集

Mapillary Vistas[89] 数据集是一个新建立的,大 场景的街景数据集,用于图像语义分割以及图像 实例分割,旨在进一步开发用于视觉道路场景理 解的先进算法。它包括 25 000 张高分辨率的彩色 图像,分成 66 个类,其中有 37 个类别是特定的附 加于实例的标签。对物体的标签注释可以使用多 边形进行稠密,精细的描绘。与 Cityscapes 相比, Mapillary Vistas 的精细注释总量大了 5 倍,并包 含来自世界各地在各种条件下捕获的图像,包括 不同天气,季节和时间的图像。

LVIS 数据集

LVIS[90] (large vocabulary instance segmentation) 是由 Facebook AI Research 于 2019 年建立的大型 词汇实例分割数据集。目前公布的实例分割数据 集的目标类别还是较少,与实际应用场景下存在 大量(未知)类别相违背。故 LVIS 收集了 164 000 张图像,对 1 000 多个对象类别标注,共有 220 万 个高质量的实例分割掩码标签。相比于 COCO 数据集,LVIS 人工标注掩码具有更大的重叠面积 和更好的边界连续性,更精确的掩码。并且在数 据成长尾分布 (类别种类多而单类的实例个数 少) 时仍有很好的训练效果。

评价指标

两阶段的实例分割

        两阶段实例分割是以处理阶段划分,其中自上而下的基于检测方法是先检测出图像中实例所 在区域,再对候选区域进行像素级别分割。而自 下而上的基于分割思想则将实例分割看作一个聚 类任务,通过将像素分组为图像中呈现的任意数量的目标实例,最后判断每组的类别来生成实例 掩码,这种不需要束缚于目标框的影响。

自上而下的实例分割

1) 建议框生成,使用非极大值抑制 (non-maximum suppession, NMS) 为每张图片产生 2000 个 候选区域;

2) 特征提取,联合训练两个不同的卷积神经网络 (convolutional neural network, CNN) 网络同时提取候选区域和区域前景特征;

3) 区域分类,利用 CNN 中提取到的特征训练 SVM 分类 器对上述区域进行分类;

4 ) 区域细化,采 用 NMS 来剔除多余区域,最后使用 CNN 中的特征来生成特定类别的粗略掩码预测,以细化候选区域将该掩码与原始候选区域结合起来可以进一步 高分割效果。

单阶段实例分割

        是一种直接从图像中预测每个像素的实例分割掩码的方法。它可以通过感知实例分割、建模掩码、Transformer嵌入以及其他一些方法和技术来实现。这些方法的综合应用可以提高实例分割的准确性和性能。

        单阶段实例分割是一种实例分割方法,旨在直接从图像中预测每个像素的实例分割掩码,而无需先进行目标检测。它将目标检测和语义分割结合起来,同时预测每个目标实例的边界框和像素级别的掩码。

        在单阶段实例分割中,感知实例分割是一种常用的技术,它利用卷积神经网络(CNN)对图像进行处理,并通过多层感知机(MLP)对每个像素进行分类,以确定它是否属于某个实例。

        建模掩码是指使用各种模型和算法来对实例分割掩码进行建模和表示。这可以包括使用图像分割模型(如U-Net、FCN等)来生成掩码,或使用图像处理技术(如边缘检测、区域生长等)进行掩码的建模。

        Transformer嵌入是指在单阶段实例分割中使用Transformer模型来学习像素之间的依赖关系和上下文信息。Transformer模型能够对图像中的像素进行全局关联和注意力计算,从而提高实例分割的准确性和性能。

        除了上述方法,还有其他一些技术和方法可以用于单阶段实例分割,如密集预测网络(Dense Prediction Networks)、注意力机制(Attention Mechanism)和级联分割网络(Cascade Segmentation Networks)等。这些方法的目标都是实现更准确和高效的单阶段实例分割。

知识点

CNN与MLP区别

卷积神经网络(Convolutional Neural Network,简称CNN)和多层感知机(Multilayer Perceptron,简称MLP)是两种常见的神经网络模型,它们在结构和应用上存在一些区别:

  1. 网络结构:

    • MLP是一种全连接的神经网络模型,每个神经元与上一层的所有神经元相连,没有共享权重的概念。每一层都采用全连接的方式,适用于处理结构化数据,如表格数据。
    • CNN是一种具有局部感知能力的神经网络模型,通过卷积层和池化层的组合,有效地处理具有空间结构的数据,如图像。卷积层使用卷积操作来提取图像中的特征,并通过共享权重和局部连接的方式减少参数数量。
  2. 参数共享:

    • MLP中的每个神经元都有自己的权重,网络中的参数数量非常大。这样的结构使得MLP在处理大规模数据时非常耗时和内存密集。
    • CNN利用参数共享的概念,通过在不同位置使用相同的权重进行卷积操作,大大减少了参数数量。这使得CNN在处理图像等具有局部相关性的数据时更加高效。
  3. 应用领域:

    • MLP常用于解决分类和回归问题,特别适用于处理结构化数据和特征工程任务。它在自然语言处理(NLP)等领域也有一定应用。
    • CNN主要用于图像处理和计算机视觉任务,如图像分类、物体检测和图像分割。CNN通过卷积和池化操作能够提取图像中的空间特征,并在处理具有二维结构的数据时表现出色。

        总的来说,MLP是一种全连接的神经网络模型,适用于处理结构化数据和特征工程任务,而CNN是一种具有局部感知能力和参数共享的神经网络模型,适用于图像处理和计算机视觉任务。两者在网络结构、参数共享和应用领域等方面存在明显差异,针对不同类型的问题和数据,选择合适的网络模型是很重要的。

参数共享

        在神经网络中,参数共享是一种技术,它指的是在网络的不同位置使用相同的权重或参数。

        具体来说,参数共享在卷积神经网络(CNN)中得到广泛应用。CNN使用卷积层进行特征提取,其中包含卷积核(也称为滤波器)。卷积核在输入数据上进行滑动操作,通过卷积运算提取图像的局部特征。在参数共享的情况下,卷积核在图像的不同位置使用相同的权重。

        举个例子,假设有一个3x3的卷积核,对于图像的不同区域进行卷积操作时,使用相同的3x3权重矩阵。这意味着无论卷积操作发生在图像的哪个位置,卷积核的权重都是相同的。通过参数共享,网络可以在不同位置共享相同的特征提取操作,从而减少需要学习的参数数量。

        参数共享的好处是减少了网络的参数量,降低了模型的复杂性,同时提高了模型的效率和泛化能力。在处理具有空间结构的数据,如图像,时,参数共享能够捕捉到图像的局部特征,从而更好地处理图像中的信息。

        需要注意的是,参数共享在卷积层中是一种常见的做法,但在其他层(如全连接层)中通常不采用参数共享。在全连接层中,每个神经元都与前一层的所有神经元相连,并且拥有独立的权重参数。

Transformer 嵌入

        最近,Transformer 模型在自然语言处理中的 突破引起了计算机视觉社区的极大兴趣。Transformer 的关键部件是多头注意力,这可以显着提高模型的能力。目前,已有研究人员将 Transformer 应用到图像实例分割领域且有了较好的效果。 ISTR[56] 是首个基于 Transformer 的端到端实例分割框架。ISTR 通过预测低维掩码嵌入和循环细 化策略同时检测和分割实例,与自下而上和自上 而下的框架相比,为实现实例分割提供了新的视角。SOTR[57] 利用 Transformer 简化了分割流程, 使用两个并行子任务:1) 通过 Transformer 预测每 个实例类别;2) 利用多级上采样模块动态生成分割掩码。此外提出的双 Transformer 在一定程度 上提高了分割精度和训练收敛性。可见,编码器–解码器 Transformer 模型可以通过一系列可学习的掩码嵌入将实例分割任务统一。与 CNN 相 比,视觉 Transformer 在实例分割领域具有很强的竞争力。

基于深度学习的实例分割研究综述  苏丽1,2,孙雨鑫1,苑守正1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值