语义分割_CVF2020

目录

单图像语义分割

Modeling the Background for Incremental Learning in Semantic Segmentation

Single-Stage Semantic Segmentation from Image Labels

Learning Dynamic Routing for Semantic Segmentation

Spatial Pyramid Based Graph Reasoning for Semantic Segmentation

Graph-guided Architecture Search for Real-time Semantic Segmentation

Severity-Aware Semantic Segmentation with Reinforced Wasserstein Training

Dual Super-Resolution Learning for Semantic Segmentation

Squeeze-and-Attention Networks for Semantic Segmentation

领域适应,合成数据集  => 真实数据集

Learning Texture Invariant Representation for Domain Adaptation of Semantic Segmentation

FDA: Fourier Domain Adaptation for Semantic Segmentation

Transferring and Regularizing Prediction for Semantic Segmentation

Joint Semantic Segmentation and Boundary Detection using Iterative Pyramid Contexts

弱监督,分类 => 分割 & 半监督,有标签 => 无标签 & 无监督

弱监督

Weakly-Supervised Semantic Segmentation via Sub-category Exploration

Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

半监督

Semi-Supervised Semantic Segmentation with Cross-Consistency Training

无监督

Unsupervised Intra-domain Adaptation for Semantic Segmentation through Self-Supervision

点云语义分割 

RandLA-Net: Effificient Semantic Segmentation of Large-Scale Point Clouds

SpSequenceNet: Semantic Segmentation Network on 4D Point Clouds

Multi-Path Region Mining For Weakly Supervised 3D Semantic Segmentation on Point Clouds

xMUDA: Cross-Modal Unsupervised Domain Adaptation for 3D Semantic Segmentation

视频语义分割

Temporally Distributed Networks for Fast Video Semantic Segmentation

待分类

Benchmarking the Robustness of Semantic Segmentation Models

MSeg: A Composite Dataset for Multi-domain Semantic Segmentation

ViewAL: Active Learning With Viewpoint Entropy for Semantic Segmentation

 

1.单图像语义分割

Modeling the Background for Incremental Learning in Semantic Segmentation

尽管深层架构在广泛的任务中都很有效,但它们仍然存在一些重要的限制。特别是,他们很容易发生灾难性遗忘,即当有新类可用但没有保留原有的训练集,需要他们更新模型时,他们的表现很差。本文在语义切分的背景下解决了这一问题。这个任务当前的策略失败,因为他们不考虑语义分割的一种特殊的方面:由于每个训练步骤提供注释只对所有可能的类的一个子集,背景类的像素(即像素不属于任何其他类)展览语义分布转变。在这项工作中,我们回顾了经典的增量学习方法,提出了一个新的基于提炼的框架,明确说明了这一转变。此外,我们引入了一种新的策略来初始化分类器的参数,从而避免了对背景类的偏见预测。通过对Pascal-VOC 2012和ADE20K数据集的广泛评估,我们证明了我们的方法的有效性,显著优于最新的增量学习方法。

 

Single-Stage Semantic Segmentation from Image Labels

近年来,在弱监督背景下,即只有图像级别的标签可用于训练的情况下,提高语义分割准确率的新方法快速增长。然而,这是以增加模型复杂性和复杂的多阶段培训程序为代价的。这与早期的工作形成了鲜明的对比,早期的工作只使用单一阶段训练图像标签上的一个分割网络,由于分割精度较低而被放弃。在这项工作中,我们首先定义了弱监督方法的三个理想特性:局部一致性、语义保真度和完备性。以这些属性为指导,我们开发了一个基于分割的网络模型和一个自监督的训练方案,在单一阶段训练来自imagelevel注解的语义掩码。我们展示了尽管它很简单,但我们的方法所获得的结果与更复杂的管道相比是有竞争力的,在性能上大大超过早期的单阶段方法。

 

Learning Dynamic Routing for Semantic Segmentation

近年来,大量手工制作和搜索的网络被用于语义分割。然而,以前的工作打算在预先定义的静态架构中处理不同规模的输入,例如FCN、U-Net和DeepLab系列。本文研究了一种从概念上缓解语义表示中尺度差异的新方法——动态路由。该框架生成数据依赖的路由,适应于每张图像的尺度分布。为此,提出了一种可微选门函数,即软条件门,用于动态选择尺度变换路径。此外,通过对门控函数给出预算约束,可以在端到端方式下进一步降低计算成本。我们进一步放宽了网络层的路由空间,以支持每条转发中的多路径传播和跳转连接,带来了可观的网络容量。为了证明动态特性的优越性,我们与几种可以建模为路由空间中的特殊情况的静态架构进行了比较。在Cityscapes和PASCAL VOC 2012上进行了大量的实验来验证动态框架的有效性

 

Spatial Pyramid Based Graph Reasoning for Semantic Segmentation

卷积运算的接受域有限,而全局建模是稠密预测任务(如语义分割)的基础。本文将图卷积应用到语义分割任务中,提出了一种改进的拉普拉斯算子。图推理直接在原始特征空间组织成空间金字塔进行。与现有的方法不同,我们的Laplacian是依赖于数据的,我们引入了一个注意对角矩阵来学习更好的距离度量。它避免了投影和再投影过程,使我们的方法成为一个轻量级的模块,可以很容易地插入到当前的计算机视觉体系结构中。更重要的是,在特征空间中直接进行图推理,保留了空间关系,使空间金字塔能够从不同尺度探索多种远程上下文模式。在Cityscapes、COCO Stuff、PASCAL Context和PASCAL VOC上的实验证明了我们提出的方法在语义分割上的有效性。通过计算和内存开销的优势,我们获得了相当的性能。

 

Graph-guided Architecture Search for Real-time Semantic Segmentation

设计一个轻量级语义分割网络通常需要研究人员在性能和速度之间找到一个平衡点,由于神经网络的可解释性有限,这往往是经验的。为了使研究人员从这些繁琐的机械试验中解脱出来,我们提出了一种图形导向架构搜索(GAS)管道来自动实时搜索语义分割网络。与以往使用简化的搜索空间和堆叠可重复单元来形成网络的方法不同,我们引入了一种新的搜索机制和新的搜索空间,通过单元级多样性和面向网格的约束,可以有效地探索轻量级模型。具体地说,为了产生细胞级多样性,通过细胞独立的方式消除了细胞共享约束。然后将图卷积网络(GCN)作为单元间的通信机制无缝集成。最后,在搜索过程中加入一个面向延迟的约束,以平衡速度和性能。在城市景观和CamVid数据集上的广泛实验表明,GAS实现了新的最先进的精度和速度之间的权衡。特别是在Cityscapes dataset上,GAS在Titan Xp上以108.4帧每秒的速度取得了新的最佳性能73.5% mIoU

 

Severity-Aware Semantic Segmentation with Reinforced Wasserstein Training

语义分割是将图像中的每个像素划分为语义类的一种方法,对于自动驾驶车辆和外科手术系统都是非常重要的。基于交叉丢失的深度神经网络(DNN)取得了巨大的成功。然而,CE损失有一个局限性,它忽略了成对误分类结果的不同严重程度。例如,把一辆汽车归类到路上比把它识别为公共汽车要可怕得多。为了回避这一点,在这项工作中,我们建议通过配置地面距离矩阵,将严重性感知的类间相关性纳入到我们的瓦瑟斯坦训练框架中。此外,我们的方法可以自适应地学习地面度量在高保真模拟器,遵循一个增强替代优化方案。我们在带骨干的卡拉模拟器上评估了我们的方法,证明我们的方法显著地提高了在卡拉模拟器中的生存时间。此外,我们的方法可以很容易地应用于现有的DNN体系结构和算法,并产生优越的性能。我们报告了CamVid和Cityscapes数据集实验的结果。

 

Dual Super-Resolution Learning for Semantic Segmentation

目前最先进的语义分割方法通常采用高分辨率的输入来获得高性能,这带来了大量的计算预算,并限制了它们在资源受限的设备上的应用。在本文中,我们提出了一种简单灵活的双超分辨率学习(Dual Super-Resolution Learning, DSRL)的双流框架来有效地提高分割精度而不引入额外的计算代价。具体而言,该方法由语义分割超分辨率(SSSR)、单图像超分辨率(SISR)和特征亲和力(FA)模块三部分组成,可以在低分辨率输入的情况下保持高分辨率表示,同时降低模型计算复杂度。此外,它还可以很容易地推广到其他任务,如人体姿态估计。该方法简单有效,具有很强的表征能力,在语义分割和人体姿态估计方面都有良好的性能。具体来说,对于CityScapes的语义分割,我们可以将mIoU提高2%,将性能保持在70%。对于人的姿态估计,我们可以得到2%的地图与相同的失败和维持30%的地图减少失败。

 

Squeeze-and-Attention Networks for Semantic Segmentation

最近将注意力机制整合到分割网络中,通过极大地强调更多信息特征,提高了它们的代表性能力。然而,这些注意机制忽略了语义分割的隐含子任务,受到卷积核网格结构的约束。在本文中,我们提出了一种新的挤压-注意网络(SANet)架构,该架构利用有效的挤压-注意(SA)模块来说明分割的两个显著特征:1)像素组注意和2)像素级预测。具体来说,所提出的SA模块通过引入注意力卷积通道,将像素群注意力加在传统卷积上,从而有效地考虑了空间-通道的相互依赖性。最终的分割结果是通过合并SANet的四个层次阶段的输出,以整合多尺度的上下文来获得增强的像素级预测。在两个具有挑战性的公共数据集上进行的实证实验验证了所提出的SANets的有效性,在PASCAL VOC上实现了83.2% mIoU(未经过COCO预处理),在PASCAL Context上达到了最先进的54.4% mIoU。

 

2.领域适应,合成数据集  => 真实数据集

 

Learning Texture Invariant Representation for Domain Adaptation of Semantic Segmentation

由于为语义分割注释像素级标签非常费力,因此利用合成数据是一个很有吸引力的解决方案。然而,由于合成域与真实域之间存在域间的差异,用合成数据训练的模型很难推广到真实数据中去。在本文中,我们考虑到两个域作为纹理的根本区别,提出了一种适应目标域纹理的方法。首先,我们利用风格转换算法对合成图像的纹理进行多样性处理。生成的图像的各种纹理防止分割模型过度拟合到一个特定的(合成)纹理。然后通过自训练对模型进行微调,得到对目标纹理的直接监督。我们的结果达到了最先进的性能,我们通过大量的实验分析了在程式化数据集上训练的模型的属性。

 

FDA: Fourier Domain Adaptation for Semantic Segmentation

我们描述了一种简单的无监督域适应方法,通过交换低频频谱来减少源和目标分布之间的差异。我们举例说明了语义分割的方法,即在一个领域(如合成数据)有大量注释的图像,但在另一个领域(如真实图像)很难获得注释的图像。目前最先进的方法是复杂的,一些需要对抗优化,以使神经网络的骨干不变的离散域选择变量。我们的方法不需要任何训练来执行域对齐,只需要一个简单的傅里叶变换及其反变换。尽管它很简单,但当集成到一个相对标准的语义分割模型中时,它在当前的基准测试中获得了最先进的性能。我们的研究结果表明,即使是简单的程序也可以消除数据中令人讨厌的可变性,而更复杂的方法很难把这些数据学走

 

Transferring and Regularizing Prediction for Semantic Segmentation

语义分割通常需要大量带有像素级注释的图像。从极其昂贵的专家标签的观点来看,最近的研究表明,在逼真的合成数据(如电脑游戏)上训练的模型,加上电脑生成的注释,可以适应真实的图像。尽管取得了这样的进展,但在不限制对真实图像的预测的情况下,由于严重的域不匹配,模型很容易对合成数据进行过拟合。在本文中,我们新颖地利用语义分词的内在特性来解决模型迁移的问题。具体地说,我们提出了一个正则化的预测转移(RPT),它强加的内在属性作为约束,以一种无监督的方式正则化模型转移。这些约束包括补丁级、聚类级和上下文级在图像形成的不同层次上的语义预测一致性。由于转移是无标签和数据驱动的,预测的鲁棒性是通过选择性地涉及图像区域子集的模型正则化。通过大量的实验来验证RPT在将在GTA5和SYNTHIA(合成数据)上训练的模型转换为城市景观数据集(城市街道场景)上的建议。在为语义分割向多个神经网络注入约束时,RPT显示了一致的改进。更值得注意的是,当将RPT集成到基于对位的分割框架中时,我们报告了迄今为止最好的结果:从GTA5/SYNTHIA转移到Cityscapes时,mIoU分别为53.2%/51.7%

 

Joint Semantic Segmentation and Boundary Detection using Iterative Pyramid Contexts

在本文中,我们提出了一种用于语义分割和边界检测的联合多任务学习框架。框架中的关键组件是迭代金字塔上下文模块(PCM),该模块耦合两个任务并存储共享的潜在语义以在两个任务之间进行交互。对于语义边界检测,我们提出了新颖的空间梯度融合来抑制非语义边缘。由于语义边界检测是语义分割的双重任务,因此我们引入了具有边界一致性约束的损失函数,以提高语义分割的边界像素精度。我们广泛的实验证明,与最新技术相比,不仅在语义分割方面,而且在语义边界检测方面,其性能都更高。尤其是在Cityscapes测试集上的平均loU得分达到了81.8%,而无需使用粗略数据或任何外部数据进行语义分割。对于语义边界检测,相对于现有技术,我们在AP方面提高了9.9%,在MF(ODS)方面提高了6.8%。

 

3.弱监督,分类 => 分割 & 半监督,有标签 => 无标签 & 无监督

弱监督

*************************************************************************************************************************************************************

Weakly-Supervised Semantic Segmentation via Sub-category Exploration

现有的基于图像级标注的弱监督语义分割方法通常依靠初始响应来定位目标区域。然而,分类网络生成的这种响应图通常集中在可区分的对象部分,因为网络不需要整个对象来优化目标函数。为了加强网络关注对象的其他部分,我们提出了一个简单而有效的方法,通过利用子类别信息引入一个自我监督的任务。具体地说,我们对图像特征进行聚类,以在每个注释的父类中生成伪子类别标签,并构建子类别目标,以便将网络分配给更具挑战性的任务。通过迭代聚类图像特征,训练过程不局限于最具鉴别性的目标部分,从而提高了响应图的质量。我们进行了广泛的分析来验证所提出的方法,并表明我们的方法优于最新的方法

Learning Integral Objects with Intra-Class Discriminator for Weakly-Supervised Semantic

图像级弱监督语义分割(WSSS)的目的是学习仅采用图像类标签的语义分割。现有的方法通常依靠类激活映射(CAM)来生成伪变量,然后训练分割模型。主要的区别是,CAM估计只覆盖前景对象的部分。本文认为,将CAM应用于WSSS时,类化边界失配问题是阻碍获取全目标掩码的关键因素。由于CAM是通过分类任务进行优化的,因此它侧重于区分不同图像级别的类别。然而,WSSS需要将共享同一图像级类的像素区分为前景和背景。为了缓解这一矛盾,我们提出了一种有效的端到端类内判别器(ICD)框架,该框架通过学习类内边界来帮助分离每个图像级类内的前景和背景。在VOC 2012语义分割基准测试中,我们的方法达到了基于图像标记的WSSS的最佳性能,mIoU为68.0%,证明了该方法的有效性

 

Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

图像级弱监督语义分割是近年来深入研究的一个具有挑战性的问题。大多数高级解决方案都使用类激活映射(CAM)。然而,CAMs很难作为对象遮罩,因为完整和弱的监督之间存在间隙。本文提出一种自监督等变注意机制,以发现附加监督,缩小差距。我们的方法是基于等方差是全监督语义分割的隐式约束,其像素级标签在数据增强时与输入图像进行相同的空间变换。然而,这种约束在图像级监督训练的凸轮上是没有的。因此,我们提出对不同变换图像中预测的CAMs进行一致性正则化,为网络学习提供自我监督。此外,我们提出了一个像素相关模块(PCM),该模块利用上下文外观信息,通过其相似邻居对当前像素的预测进行细化,从而进一步提高CAMs的一致性。在PASCAL VOC 2012数据集上的广泛实验表明,我们的方法优于使用相同监管水平的最先进的方法。该代码在网上发布

 

半监督

*************************************************************************************************************************************************************

Semi-Supervised Semantic Segmentation with Cross-Consistency Training

在本文中,我们提出了一种新的基于交叉一致性的半监督语义分割方法。一致性训练已经被证明是在聚类假设下利用未标记数据的一个强大的半叠加学习框架,在聚类假设下,决策边界应该位于低密度区域。在这项工作中,我们首先观察到,对于语义分割,低密度区域在隐藏的表征中比在输入中更明显。因此,我们提出交叉一致性训练,其中预测的不变性被强制应用到不同的摄动编码器的输出。具体地说,一个共享编码器和一个主解码器在监督方式训练使用可用的标签示例。为了利用未标记的例子,我们加强主解码器的预测与辅助解码器的预测之间的一致性,将编码器输出的不同扰动版本作为输入,从而改进编码器的表示。该方法简单且易于扩展到使用额外的训练信号,如跨不同域的图像级标签或像素级标签。我们进行了消融研究,以分离出每个组件的有效性,并进行了广泛的实验,以证明我们的方法在几个数据集达到了最新的结果

 

无监督

*************************************************************************************************************************************************************

Unsupervised Intra-domain Adaptation for Semantic Segmentation through Self-Supervision

基于卷积神经网络的方法在语义分割方面取得了显著的进展。然而,这些方法严重依赖于注释数据,这是劳动密集型的。为了解决这一限制,从图形引擎生成的自动标注的数据被用来训练分割模型。然而,由合成数据训练出来的模型很难转换成真实图像。为了解决这个问题,以前的工作已经考虑了直接调整从源数据到未标记的目标数据的模型(以减少域之间的差距)。尽管如此,这些技术并没有考虑到目标数据之间的巨大分布间隙(内间隙)。在本研究中,我们提出了一种两步自监督域自适应的方法来最小化域间和域内的间隙。首先,我们对模型进行域间适应,在这种适应中,我们利用基于熵的排序函数将目标域分为易分割和难分割。最后,为了减小域内间隙,我们提出了一种从易域到难域的自监督自适应技术。在大量基准数据集上的实验结果突出了我们的方法对现有的最先进的方法的有效性

 

4.点云语义分割 

RandLA-Net: Effificient Semantic Segmentation of Large-Scale Point Clouds

研究了大规模三维点云的有效语义分割问题。由于依赖昂贵的采样技术或计算量大的预处理/后处理步骤,大多数现有方法只能在小规模点云上进行训练和操作。在本文中,我们引入了RandLA-Net,一种高效的、轻量级的神经结构来直接推断大规模点云的每点语义。我们的方法的关键是使用随机点采样而不是更复杂的点选择方法。尽管随机抽样具有显著的计算和存储效率,但它可能会偶然地丢弃关键特征。为了解决这一问题,我们引入了一种新的局部特征聚合模块来逐步增加每个三维点的感受域,从而有效地保留几何细节。广泛的实验表明,我们的RandLA-Net一次可以处理100万个点,比现有的方法快200个点。此外,我们的RandLA-Net在两个大规模基准语义3d和语义kitti上明显超过了最先进的语义分割方法

 

SpSequenceNet: Semantic Segmentation Network on 4D Point Clouds

点云在许多应用程序中非常有用,比如自动驾驶和机器人技术,因为它们提供了周围环境的自然3D信息。虽然对三维点云的研究已经非常广泛,但对一系列连续的三维点云帧—4D点云的场景理解是一个新兴的课题,研究还不够深入。使用4D点云(3D点云视频),机器人系统可以通过利用前一帧的时间信息来增强其鲁棒性。然而,现有的4D点云语义分割方法由于网络结构存在时空信息丢失,精度较低。在本文中,我们提出了SpSequenceNet来解决这个问题。该网络基于三维稀疏卷积设计,包括跨帧全局注意模块和跨帧局部插值模块,用于捕获4D点云中的时空信息。我们在SemanticKITTI上进行了大量的实验,在mIoU上得到了最先进的43.1%的结果,比之前的最佳方法提高了1.5%

 

Multi-Path Region Mining For Weakly Supervised 3D Semantic Segmentation on Point Clouds

点云为理解场景提供了内在的几何信息和表面上下文。现有的点云分割方法需要大量的全标记数据。使用先进的深度传感器,收集大规模三维数据集不再是一个繁琐的过程。然而,在大规模数据集上手工生成点级标签是费时费力的。在本文中,我们提出了一个弱监督的方法来预测点级结果使用弱标签的三维点云。我们引入了多路径区域挖掘模块,从一个用弱标签训练的分类网络中生成伪点级标签。它利用不同的注意模块,从网络特征的各个方面挖掘每一类的定位线索。然后,我们使用点级伪标签在完全监督的情况下训练一个点云分割网络。据我们所知,这是第一种在原始3D空间上使用云级弱标签来训练点云语义分割网络的方法。在我们的设置中,3D弱标签仅指示在输入示例中出现的类。我们讨论了原始3D点云数据上的场景级和云下级弱标签,并对它们进行了深入的实验。在ScanNet[8]数据集上,我们使用云级标签训练的结果与一些完全监督的方法兼容

 

xMUDA: Cross-Modal Unsupervised Domain Adaptation for 3D Semantic Segmentation

无监督域自适应(UDA)对于解决新域缺少注解的问题至关重要。有许多多模态数据集,但大多数的UDA方法是单模态的。在这项工作中,我们探索了如何从多模态学习,并提出了交叉模态UDA (xMUDA),其中我们假设存在2D图像和3D点云进行3D语义分割。这是一个挑战,因为这两个输入空间是异构的,并且可能会受到领域移动的不同影响。在xMUDA中,模态通过相互模仿相互学习,从分割目标中分离出来,防止较强模态采用较弱模态的错误预测。我们评估新的UDA场景,包括从日到夜、国家到国家和数据集,利用最近的自动驾驶数据集。xMUDA带来了对所有测试场景的单模态UDA的巨大改进,是对最先进的UDA技术的补充。

 

5.视频语义分割

Temporally Distributed Networks for Fast Video Semantic Segmentation

我们提出了TDNet,一个为快速和准确的视频语义分割而设计的实时分布式网络。我们观察到,从深度CNN的某个高级层提取的特征可以通过组合从几个较浅的子网络提取的特征来近似。利用视频中固有的时间连续性,我们将这些子网络分布在顺序的帧上。因此,在每一个时间步长,我们只需要执行一个轻量级计算,从一个子网络中提取一个子特征组。用于分割的全部特征然后由一个新的注意传播模块的应用重新组成,该模块补偿帧之间的几何变形。引入了一组知识蒸馏损失,进一步提高了全特征层和子特征层的表达能力。在Cityscapes、CamVid和NYUD-v2上进行的实验表明,我们的方法能够以更快的速度和更低的延迟达到最高的精度

 

6.待分类

Benchmarking the Robustness of Semantic Segmentation Models

在为实际应用(如自动驾驶)设计语义分割模块时,至关重要的是要了解该模块对各种图像破坏的鲁棒性。虽然最近有一些关于全图像分类的鲁棒性研究,但是我们是第一个提出基于最先进的模型DeepLabv3+的关于语义分割的详尽研究。为了增加我们研究的真实性,我们使用了来自Cityscapes、PASCAL VOC 2012和ADE20K的近400,000张图像。基于基准研究,我们获得了一些新的见解。首先,在大多数情况下,与全图像分类相反,模型的鲁棒性随着模型性能的提高而增强。其次,一些架构特性会显著影响健壮性,比如稠密的预测单元,它的设计目的是为了最大化仅对干净数据的性能

 

MSeg: A Composite Dataset for Multi-domain Semantic Segmentation

我们提出了一种组合数据集MSeg,它统一了不同领域的语义分割数据集。由于分类和注释实践不一致,简单地合并组成数据集会产生较差的性能。我们通过在8万多张图像中重新粘贴超过220,000个对象蒙版来协调分类和使像素级的注释对齐。生成的复合数据集使训练一个单一的语义分割模型成为可能,该模型能有效地跨领域工作,并能泛化到训练期间没有看到的数据集。我们采用零镜头跨数据集转移作为基准,系统地评估模型的鲁棒性,并表明MSeg训练产生的模型实质上比训练单个数据集或原始混合数据集没有提出贡献。在MSeg上训练的模型在WildDash排行榜上的鲁棒语义分割排名第一,在训练期间没有接触到WildDash数据

 

ViewAL: Active Learning With Viewpoint Entropy for Semantic Segmentation

我们提出ViewAL 1,一种新的主动学习策略的语义分割,利用视点一致性在多视点数据集。我们的核心思想是,模型预测中跨视点的不一致性提供了一个非常可靠的不确定性度量,并鼓励模型在不考虑观察对象的视点的情况下表现良好。为了纳入这种不确定性测度,我们引入了一个新的观点熵公式,这是我们主动学习策略的基础。此外,我们提出了超像素级的不确定性计算,这将利用分割任务中固有的局部信号,直接降低注释成本。这种视点熵和超像素的结合可以有效地选择信息丰富的样本来改进网络。我们证明,我们提出的主动学习策略不仅在相同数量的需要标记数据的情况下产生性能最好的模型,而且显著减少标记工作。我们的方法仅使用SceneNet-RGBD、ScanNet和Matterport3D上7%、17%和24%的标记数据,就可以实现95%的最大可实现网络性能。在这些数据集上,最先进的方法在标签数据为14%、27%和33%的情况下达到同样的性能。最后,我们证明了使用超像素标记与标记整幅图像相比产生相同的地面真值质量,但需要的时间少25%。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值