What‘s the Point: Semantic Segmentation with Point Supervision 翻译与简单注解

声明:本篇为原论文的翻译,限于博主的知识,可能有翻译或理解不对的地方,若发现请在评论区留言更改。省略related work和致谢部分。所有的公式,图均来自原文。

原文:What’s the Point: Semantic Segmentation with Point Supervision

Abstract:

语义分割任务在测试准确率和训练注解成本之间获取平衡。细致的每像素注解能训练准确的模型,但是非常耗时。图片级的标注是很省时,但是导致低精确度模型。我们自然而然地从图像级注释以加强监督:我们要求注释者指向一个对象(如果存在)。我们将点监督和一种新的objectness potention纳入到CNN模型的损失函数中。实验结果显示,在PASCAL VOC 2012数据集上,此方法比图像级别的注解获得了12.9% mIOU的提升。除此之外,我们证明了在给定注解预算的情况下,采用点级监督训练的模型比采用图像级训练,花样级和完全监督模型更准确。

 

1.Introduction

对于视觉识别来说,最主要的就是如何有效的教会计算机学习新的概念。经过精心注释的数据训练出的算法,其性能要优于其监督程度较弱的算法,(e.g., [1] vs. [2], [3]vs. [4], [5] vs. [6])然而获取这样的数据时间成本是很高的。

收集用于语义分割的训练集是十分困难的。例如,给每个像素都分配一个类标签,[3,8,9,10,11,12]。强监督方法要求像素级别的注解(Fig1)。提供单个对象的准确轮廓耗时54秒[13]至79秒[5]。一个典型的室内场景包含23个对象[14],每个图像的注释时间增加到数十分钟。已经开发出了一些通过有效接口减少注释时间的方法[5,15,16,17,18,19],例如,仅在必要时才请求人工反馈[13]。尽管如此,准确的像素级的注解仍然是很昂贵和稀缺的。

为了减轻对大规模详细注释的需求,弱监督语义分割技术被研究与开发。最常见的场景是我们在训练过程中仅提供图像级别的类存在或补提供标签[4,20,21,22,23,24,25],但也探索了其他形式的弱监督,例如边界框注释 [4],眼动轨迹[26],自由形式的花体[17,18]或嘈杂的网络标签[27]。这些方法显著地降低了在训练过程中的注解工作,但是不能达到和全监督技术相近的准确率。

在本工作中,与图片级标签相比,在可忽略的额外时间下,我们朝着加强语义监督的方向迈出了自然的一步。人类指代物体的最自然的方法是指向:“那只猫在那儿”(点)或“那儿是什么?(点)。心理学研究显示,心理学研究表明,人类以一致且可预测的方式指向物体[3,28]。点作为一种有效的联系方式被广泛应用于机器人和人机交互领域。然而,点注解在语义分割领域还未被广泛挖掘。

我们主要的贡献是:一种新颖的基于人类指向对象的语义分割监督机制。我们扩展了用于语义分割的最新的卷积神经网络(CNN)框架[5,23],将点监督纳入其训练损失函数。在每个类只有一个标签点的情况下,我们显著的提高了语义分割的准确率。我们进行了广泛的人体研究,以在PASCAL VOC 2012数据集上收集这些点并评估注释时间。 我们还将使用户界面和注释开放社区使用。

在点级别上对监督的挥之不去的关注是,很难推断出对象的全部范围。我们的第二项贡献是在损失中直接加入通用的客观先验[30],以指导CNN的训练。 通过提供像素所属的概率,该先验有助于将对象(例如汽车,绵羊,鸟)与背景(例如草,天空,水)分离。此类先验已在分割文献中用于选择图像区域[31],作为条件随机场模型[20]中的一元电势,或在推论中[25]。然而,据我们所致,我们是第一个将此先验直接应用在用于指导训练卷积神经网络的损失函数中的。

与使用图像级标签进行训练相比,我们对PASCAL VOC 2012数据集[32]的平均交集比联合(mIOU)大幅增加了12:9%。 此外,我们证明了在给定固定注释预算的情况下,以点级监督训练的模型优于以图像级,弯曲级别和完全监督的模型,获得了在2.7-20.8%的mIOU提高。

2. 相关工作(省略)

3.语义分割方法

我们在这介绍用于训练语义分割模型的点级别监督的方法(Fig.2)。

在第四部分,我们会证明此级别的监督时间成本低,能很高效的获得。在我们的设置中(与 [2] 对比),用于监督的点仅提供于训练图像。学习到的模型然后被用于分割测试图像,并且没有额外的人工输入。

当前最好的语义分割方法[4,5,23,25,37],不管是监督的还是无监督的,都采用统一的卷积神经网络框架。这些方法输入为W*H的图像,输出一个W*H*N的得分映射。在测试的时候,这个得分映射(数组)被转化成大小为W*H的每像素预测,通过在每个像素点执行最大化操作或者采用某些更复杂的后续处理。

使用不同程度监督的训练模型需要定义不同的适当的损失函数。我们首先介绍文献中最常用的两种。然后,我们将其扩展为包含(1)我们提出的点监督和(2)新颖的客观先验。

全监督。当每个像素的类标签在训练的时候都可获得的时候,卷积神经网络通常通过优化所有像素熵的交叉熵和来训练[5,37]。

I 为图像中的像素集合。s<sub>ic</sub>为卷积神经网络给出的像素点i为类别c的得分。

为通过softmax处理后,像素i为类c的概率。

 

给定地面真值图G,表明 像素i属于Gi类,单个训练图像上的损失为:

对于未定义ground truth标签的像素,损耗为零。(例如,对于在PASCAL VOC [32]中的对象边界上定义为“困难”的像素)。

图像级监督。 在这种情况下,训练期间唯一可用的信息是图像中存在的类的集合L⊆1,..,N}和不存在的类的集合L'⊆{1,..,N} 图片。 可以用不同的交叉熵损失训练CNN模型:

第一部分是让对于在L中的每个类,至少有一个像素被标记为该类有较高的概率。第二部分,是让在L'的每个类,没有任何像素被标记为这些类的概率应该高。

点级别监督。我们研究一种中间情况,其中一小类受监督的像素I<sub>s</sub>已知对象类别,而其他像素仅已知属于L中的某个类别。我们推广了等式。 (1)和(2)至:

(这个损失函数其实就是把全监督和图像级别监督的损失函数组合了一下)

在这,αi确定每个受监督像素的相对重要性。我们为αi尝试了几种公式。

(1)对于每个类,我们要求用户"确定图像中不存在该类"或指向一个对象实例(说明存在该类,但是不单单只是指出存在,还要在图像中的该类点一个点)。在这个情况下,|I<sub>s</sub>|=|L| ,αi对于每个点都是一样的。

(2)我们要求多个注释者执行与(1)相同的任务,并将αi设置为提供该点的注释者的准确性的置信度;

(3)我们要求注释者指向图像中类的每个实例,并且αi对应于点的顺序:第一个点更可能对应于最大的对象实例(类似人眼首先被看向图像中最显眼的那个部分),因此应具有较高的权重αi。

客观先验(不知道是不是这样翻译)

具有很少或没有监督像素的训练模型的一个问题是正确推断对象的空间范围。

通常,弱监督方法倾向于局部极小值:只关注目标对象的一小部分,或者将所有像素预测为属于背景类[23]。

为缓解此问题,我们在我们的术语中引入了一个附加术语基于客观先验的训练目标(图2)。

客观性提供,相对于背景(例如天空,水,草),每个像素是否属于任何对象类别[30](例如,鸟,汽车,羊)的概率。 这些概率在图形模型中作为一元势之前已在弱监督的语义分割文献中使用[20],或者在CNN分割之后被用作推论[25]。 据我们所知,我们是第一个将其直接整合到CNN训练中的人。
令P<sub>i</sub>为像素i属于物体的概率。 令O为对应于对象的类,其他类对应于背景。 在PASCAL VOC中,O是20个对象类,并且只有一个通用背景类。 我们定义一个新的损失: 

对于具有高P<sub>i</sub>值的像素,此目标函数鼓励在对象类上放置高概率(意思就是这个点被标注为前景的概率要比较高)。 另外,当P<sub>i</sub>低时,它更倾向于被标注为背景类。 请注意,Lobj不需要人工监督(除了对通用对象检测器进行预训练之外),因此可以与上述任何损失结合在一起。

4.众包注释数据

在本节中,我们描述了用于收集不同监督级别的注释的方法。 在数据收集过程中直接测量了点级和花样级(squiggle-level,不知道是不是这样翻译)监督所需的注释时间。 对于其他类型的监督,我们依赖文献中报告的注释时间。

图像级监督(20.0秒/ img)。 收集图像级标签花费1秒/类[26]。 因此,用PASCAL VOC注释具有20个对象类的图像,每个图像需要20秒。

全面监督(239.7秒/ img)。 PASCAL VOC 2012 [32]中每个图像平均有1.5个对象类。 在18.5秒的标记时间内,需要1秒的时间来注释每个不存在的对象(获得图像级的“ no”标记)。 另外,平均每个图像有2.8个对象实例需要分割[32]。 COCO数据集的作者报告了22个工作小时的1,000个分割[16]。 这意味着每个对象分割的平均标记时间为79秒,在本例中为2.8×79秒。 因此,每个图像的总预期注释时间为239.7秒。

4.1 点级别监督(22.1s/img)

我们使用Amazon Mechanical Turk(AMT)来标注在20 PASCAL VOC数据集上的12031图片的点级别监督:PASCAL VOC分割数据集所有的训练和验证图片[32]加上[39]上的多余图片。图片3左部分展示了接口,中间部分展示了一些收集的数据。我们使用两种不同的点级别监督任务。对于每张图片,我们要么(1)每个对象类别一个标注点,只标注在标注者看到的第一个对象实例上(就是某个对象类别有多个对象实例的时候,只在标注着第一个看到的对象实例上标注)。(2)每个对象实例一个标注点。我们公开了这些收集到的标注和标注系统。

标注时间。在PASCAL VOC 2012数据集上,平均每张图片有1.5个类别。工作者需要花费2.4秒来点击第一个对象实例。因此,标注一个点需要1*18.5+1.5*2.4=22.1秒/图片。工作者平均需要花费0.9s来点击每个多余的对象实例(除了第一个实例之外的)。每张图像平均有2.8个实例,因此所有点(就是上面说的第二种标注)模式下的标注时间为1*18.5+1.5*2.4+(2.8-1.5)*0.9=23.3s/img。注意:点监督相比于图像级别监督,仅仅花费了约1.1-1.2x时间。并且比全监督少开销10倍。

质量控制。通过在50幅图像任务中植入10张评估图像并确保至少正确地标记8张图像来完成点注释的质量控制。 如果点落在对象周围的紧密边界框内,则认为该点是正确的。 对于AllP oints任务,带注释的单击数必须至少等于已知对象实例的数量。

错误率。简单地确定图像中是否存在对象类别很容易,而且工作人员只有1%的时间错误地将标记对象类别。 在1Point任务中,有7.2%的点位于具有不同类别标签的像素上(根据PASCAL的ground truth),另外0.8%的点位于未分类的“困难”像素上。 40]绘制边界框时报告的平均错误率(25%)要高得多。我们收集的数据是高质量的,证实了指向对象自然地来自于人[3,9]。

注释者在标注AllPoint模式时遇到了更多困难:7.9%的ground truth实例未进行注释,14.8%的单击是在错误的对象类上,而1.6%的单击是在“困难”像素上。 由于任务模糊或实例很小,此任务在工作人员中引起了一些混乱; 例如,这些实例中的许多实例都没有在ground truth中进行注释,但是被工人点击,造成了较高的误报率。

4.2 短曲线级别监督

[17,18]已经尝试过用自由形式的短曲线训练,其中像素的子集被标记。 尽管[17]通过从ground truth情况中随机标记超像素来模拟曲线,但我们遵循[18]在所有PASCAL VOC 2012训练图像上从人类收集了20个对象类的曲线注释(和注释时间)。 这使我们能够正确地将此监督设置与人员要点进行比较。 我们通过要求注释者在目标类的一个实例上绘制一个曲线来扩展图3(左)所示的用户界面。 图3(右)显示了一些收集的数据。

标注时间。和以前一样,注释图像中不存在的类需要18.5秒。 对于存在的每个类,要花10.9秒在目标类上绘制任意形式的曲线。 因此,每幅图像的1曲线标记时间为18.5 + 1.5×10.9 = 34.9秒。 这比获得1P点级别的监督要耗费1.6倍的时间,比获得图像级别的标签要耗费1.7倍的时间。

错误率。我们使用了类似的质量控制来进行点级监督。
只有6.3%的带注释像素位于错误的对象类别上,另外1.4%的像素位于PASCAL VOC中标记为“困难”的像素上[32]。
在第5节中,我们比较了在不同监督水平下训练的模型的准确性。

5. 实验

我们从经验上证明了我们的点级和客观先验的效率。
我们将这些形式的监督与图像级标签,曲线级,和完全监督的数据进行比较。 我们得出的结论是,在固定时间预算下,点级监督可以大大提高注释器时间的使用效率,并产生更有效的模型。

5.1 设置

数据集。 我们对PASCAL VOC 2012分割数据集[32]进行了训练和评估,并增加了[39]中的额外注释。 有10582张训练图像,1449张验证图像和1456张测试图像。 我们报告了21个类别的平均均值交集(mIOU)。

卷积神经网络架构。我们使用最先进的全卷积网络模型[5]。 简而言之,该架构基于VGG 16层网络[8],所有连接的层都转换为卷积层。 丢弃最后一个分类器层,并用通道尺寸N = 21等于对象类数的1x1卷积层替换。 最后的修改是添加去卷积层以将输出双线性上采样到像素级密集预测。

卷积神经网络训练。我们按照类似于[5]的程序进行训练。 我们使用固定学习率10 ^ -5的随机梯度下降法,将偏差的学习率提高一倍,并以20幅图像的小批量,动量0.9和权重衰减0.0005进行微分。 该网络用针对ILSVRC 2012数据集的1000种分类方法的预训练权重进行初始化[5,7,8]。 在完全监督的情况下,我们对分类器权重进行零初始化[5],对于所有弱监督的情况,我们遵循[23],使用原始VGG网络对PASCAL和ILSVRC通用的类学习的权重进行初始化。 我们通过在所有层进行反向传播来微调网络,并训练50,000次迭代。 我们直接基于[5,41]的公开实现。

客观先验。我们通过为每个像素分配包含每个像素的所有窗口的平均客观评分来计算每个像素的客观先验。 这些分数是通过使用预训练的模型(从[30]的发布代码中获得的)。 该模型是在50个图像上训练的,这些图像具有291个对象实例,这些实例是从不与PASCAL VOC 2007-2012重叠的各种不同数据集(例如INRIA Person,Caltech 101)中随机抽样的[30]。 为了比较的公平,我们包括事先训练客观性的注释成本。 我们估计这291个边界框平均每个花费10.2秒[40],共花费49.5分钟。 因此,使用“客观先验”可在10,582个PASCAL训练图像上摊销,因此每张图像需要花费0.28秒的额外注释。

5.2 点级监督与客观先验之间的协同作用

我们首先建立模型的基线,并先显示点级监督和客观先验的好处。 表1(顶部)总结了我们的发现,并且表2(顶部)显示了每个类别的分割准确率。

基线。 我们从图像级标签中训练出基线分割模型-无需任何其他信息。 我们基于[23]的模型,该模型训练了一个类似的卷积网络,并通过PASCAL VOC 2011的验证集获得了25.1%的mIOU。 我们注意到,在图像中不存在类别标签,以及[6]中存在的类别标签,也是一个重要的监管信号。
我们将此见解整合到我们在等式2中的损失函数Limg中。并且在PASCAL VOC 2011验证集上进行评估时,与基准相比mIOU大幅提高了5.4%。

点级监督的效果。 现在,我们进行了一项关键实验,以研究每个图像每类仅一个注释点如何提高语义分割的准确性。 我们使用等式3的损失Lpoint。 (3) 平均每个图像只有1.5个监督像素(和每张图片的类数一样)。 所有其他像素均不受监督。 我们设置α= 1/n,其中n是特定训练图像上监督像素的数量。 在PASCAL VOC 2012验证集中,使用Limg训练的模型的准确性为29.8%mIOU。 添加我们的点监督功能可以将mIOU的准确性提高5.3%至35.1%(表1中的第3行)。

客观先验的效果。 具有很少或没有监督像素的训练模型的一个问题是难以推断对象的整个范围。 使用图像级别的标签,该模型倾向于了解对象所占的面积比实际要大得多(图4的第二列)。 我们使用了等式4的损失函数里的客观先验来帮助模型正确预测对象的范围(图4的第三列)。 这提高了分割精度:仅在图像级标签的监督下,Img模型获得了29.8%的mIOU,而Img + Obj模型则提高至32.2%的mIOU。

点级监督和客观性相结合的效果。 当与“点级监督”一起使用时,客观先验的效果甚至更加明显。 在1Point的监督下,Img模型的mIOU达到35.1%,而Img + Obj模型的mIOU达到42.7%(表1中的第3行和第4行)。 相反,当从Img + Obj图像级别模型开始时,单点监督的效果会更强。 每个类别仅增加一个点,就可以将准确度从32.2%提高到42.7%,提高了10.5%。

结论。我们得出两个结论。 首先,客观先验对于没有监督像素或只有很少监督像素的训练这些模型非常有效-并且这不会给目标数据集带来额外的人工监督成本。 在其余的实验中,无论何时未标记所有像素(即除了完全监督以外的所有像素),我们始终将Img + Obj一起使用。 第二,我们的两个贡献是协同作用的。 点级监督和客观先验的综合效果使得mIOU提高了13%(从mIOU的29.8%提高到42.7%)。

5.3 点级别监督变体

我们在本节中的目标是加深对点级监管的属性的了解,使其成为一种有利的监督形式。 表1总结了我们的发现,表2显示了按类别分割准确率。

多个实例。 在所有实例上使用点(AllPoint),而不是“每类仅分配一个点(1Point)”仍然是42.7%mIOU:额外监督的好处被一些带有注释的困难实例引入的混乱所抵消。 我们在等式3中引入一个加权因子αi= 1/2^r。 (3)其中r是点的排序顺序(因此,一类的第一个实例的权重为1,第二个实例的权重为1/2,依此类推)。 这种AllPoint(加权)方法将结果的mIOU轻微提升了0.7%至43.4%。

补丁。 分割模型有效地增强了空间标签的平滑度,因此将受监督像素的面积增加至一个点周围2、5和25个像素的半径的影响很小,mIOU仅从43.0到43.1%(表1中未显示)。

多个标注者。 我们还从3个不同的标注者中收集了1point数据,并在训练过程中使用了所有点。 这从42.7%到43.8%取得了1.1%的适度提高,但这效果似乎不值得去承受额外的注释成本(每张图像29.3秒对22.1秒)。

随机标注者。 使用来自多个标注者的数据,我们还进行了实验,以估算人为差异对模型准确性的影响。 对于每个实验,我们随机选择一个不同的独立标注者来标记每个图像。 与我们原来的42.7 mIOU相比,三轮运行分别达到42.8、43.4和43.8 mIOU。 这表明标注者点位置的变化不会显着影响我们的结果。 这也进一步证实了人类指向物体是可预测的并且是一致的[3,28]。

随机点。 一个有趣的实验是用一个点/每类进行监督,但是使用每像素有监督的ground truth(而不是要求人类点击对象)在目标对象类上进行随机采样。 与人类相比,结果提高了3.4%,从42.7%提高到46.1%。 这是由于这样的事实,即人类在指向时是可预测的并且是一致的[28,3],从而减少了跨实例的点级监管的多样性。

5.4 加强监督

点和全监督的混合方法。完全监督的分割模型可达到58.3%mIOU,每张图像的成本为239.7秒;回想一下,点级监督模型以每张图像22.4秒的成本达到42.7%。我们探索了将全面监控的高精度与点级监控的低成本相结合的想法。我们训练了一种混合分割模型,该模型结合了少量的全监督图像(本实验中为100张图像)和大量的点监督图像(PASCAL VOC 2012中剩余的10,482张图像)。该模型实现了53.1%的mIOU,与1Point模型相比,准确度显着提高了10.4%,仅比完全监督下的精确度下降了5.2%。这表明,前几个完全受监督的图像对于学习对象的范围非常重要,但是之后,点级监督在提供对象类别的位置方面非常有效。重要的是,此混合模型保持较低的注释时间,每个图像平均只有24.5秒:(100×239.7 + 10482×22.4)/(100+ 10482)= 24.5秒,比完全监督少9.8倍。我们将在第5.5节中进一步探讨注释成本和准确性之间的权衡。

曲线。 自由形式的曲线是从点到更强监督的自然延伸。 曲线级的监督标注了更多的像素:使用曲线时,每个图像平均收集502.7个监督像素,而使用1Point则收集了1.5个监督像素。 像点一样,曲线在准确性和注释成本之间提供了很好的折衷。 曲线型模型的mIOU比图像级标签高16.9%,mIOU比1Point高6.4%,成本仅为1.6到1.7倍。 但是,在注释时间和准确性方面,曲线级监督均比混合方法差:曲线级需要较长的35.2秒,而混合方法花了24.5秒,曲线级仅实现了49.1%mIOU,而混合方法是53.1%mIOU 。 这表明在少数几个图像上将大规模点级标注与完整标注结合在一起的混合监督是一种更好的标注策略,比曲线级标注更好。

5.5 (时间)预算下的分割准确率

固定预算。 给定固定的标注时间预算,哪个的方法可以获得最佳的语义分割模型? 我们通过将总标注时间固定为10来调查此问题; 582×(20.3)=60小时(标注全部10582个训练样本所需要的时间);。 对于每种监督方法,我们然后计算可以在该时间段内标记的图像数量N,从训练集中随机采样N幅图像,使用它们训练分割模型,并在验证集中测量结果的准确性。 表3报告了图像数量N以及完全监督(22.1%mIOU),图像级监督(29.8%mIOU),曲线级监督(40.2%mIOU)和点级监督(42.9%mIOU)模型的结果准确性 。 在固定预算上,点级监督的性能优于其他类型的监督,可在注释时间和最终的分割精度之间提供最佳折衷。

无限预算(严格监督)。 我们将点监督1Point模型的标注时间和准确性与具有更大标注预算已发布的技术进行了比较(意思就是与用更大标注预算的其他已有模型进行比较),以作为在资源更多的情况下我们的方法可能实现的目标的参考。 Long等 [5]报告了62.2%mIOU,Hong等 [33]报道了66.6%的mIOU,Chen等[37]报道了71.6%的mIOU,但是在完全监督的环境中,需要大约800小时来进行标注,比点监督更耗时一个数量级。 未来的探索将揭示在给定800个标注小时的数据的情况下,点级监管是否会胜过完全监督的算法。

小预算(弱监督)。 我们还比较了监督不力的已发布结果。 Pathak ICLR等[23]达到25.7%mIOU,Pathak ICCV等 [6]达到35.6%mIOU,Papandreou等 [4]仅在12,301张图像上需要大约67个小时的注释的图像级标签即可达到39.6%mIOU(第4节)。 Pinheiro等[25]达到40.6%的mIOU,但要进行400个小时的标注。我们在所有这些方法上的准确性都得到了提高,并且在点级监督下需要大约79个小时的注释,达到了43.6%的精度。 请注意,我们的基准模型是[23,4]的显着简化版本。 合并其方法的其他功能可能会进一步提高我们的准确性,而无需支付额外费用。

大小限制。 最后,我们将其与[6]的最新工作进行比较,后者使用图像级标签进行训练,但是以对象大小约束的形式引入了额外的监督。 他们实现了43.3%的mIOU(省略了CRF后处理),而使用点级监督则达到了43.6%。 尽管未报告注释时间,但应该能快速获得此大小约束。这两个简单的监督(点级别和大小)是互补的,将来可能会有效地一起使用。

6.结论

我们提出了一种新的省时的用于语义分割的监督方法,此方法基于人类指向对象的过程。 我们证明了,在给定相同标注时间预算的情况下,该方法比其他流行的监督形式能够训练出更准确的分割模型。 此外,我们在CNN的损失函数中直接引入了一个客观先验,以帮助推断对象的范围。 我们通过评估PASCAL VOC 2012数据集证明了我们方法的有效性。 我们希望未来的大规模语义分割工作将考虑使用我们建议的点级监督,并基于我们发布的数据集和标注接口。

7.引用

1. Girshick, R., Donahue, J., Darrell, T., Malik., J.: Rich feature hierarchies for accurate object detection and semantic segmentation. In: CVPR. (2014)
2. Wang, T., Han, B., Collomosse, J.: TouchCut: Fast Image and Video Segmentation using Single-Touch Interaction. Computer Vision and Image Understanding 120 2014) 14{30
3. Clark, H.H.: Coordinating with each other in a material world. Discourse Studies7(4-5) (2005) 507{525
4. Papandreou, G., Chen, L.C., Murphy, K., Yuille, A.L.: Weakly- and SemiSupervised Learning of a Deep Convolutional Network for Semantic Image Segmentation. In: ICCV. (2015)
5. Long, J., Shelhamer, E., Darrell, T.: Fully Convolutional Networks for Semantic Segmentation. In: CVPR. (2015)
6. Pathak, D., Kr¨ahenb¨uhl, P., Darrell, T.: Constrained Convolutional Neural Networks for Weakly Supervised Segmentation. In: ICCV. (2015)
7. Russakovsky, O., Deng, J., et al.: ImageNet Large Scale Visual Recognition Challenge. IJCV (2015)
8. Simonyan, K., Zisserman, A.: Very Deep Convolutional Networks for Large-Scale Image Recognition. In: ICLR. (2015)
9. Merrill, D., Maes, P.: Augmenting Looking, Pointing and Reaching Gestures to Enhance the Searching and Browsing of Physical Objects. In: Pervasive Computing. Lecture Notes in Computer Science (2007)
10. Hild, M., Hashimoto, M., Yoshida, K.: Object recognition via recognition of finger pointing actions. In: Image Analysis and Processing. (2003) 88{93
11. Farabet, C., Couprie, C., Najman, L., LeCun, Y.: Learning Hierarchical Features for Scene Labeling. TPAMI (August 2013)
12. Gould, S.: Multiclass Pixel Labeling with Non-Local Matching Constraints. In: CVPR. (2012)
13. Jain, S.D., Grauman, K.: Predicting Sufficient Annotation Strength for Interactive Foreground Segmentation. In: ICCV. (December 2013)
14. Guillaumin, M., Kuettel, D., Ferrari, V.: ImageNet Auto-annotation with Segmentation Propagation. IJCV (2015)
15. Rother, C., Kolmogorov, V., Blake, A.: GrabCut: Interactive Foreground Extraction Using Iterated Graph Cuts. In: ACM SIGGRAPH. (2004)
16. Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollr, P., Zitnick, C.L.: Microsoft COCO: Common Objects in Context. In: ECCV. (2014)
17. Xu, J., Schwing, A.G., Urtasun, R.: Learning to Segment Under Various Forms of Weak Supervision. In: CVPR. (2015)
18. Lin, D., Dai, J., Jia, J., He, K., Sun, J.: ScribbleSup: Scribble-Supervised Convolutional Networks for Semantic Segmentation. In: CVPR. (2016)
19. Bell, S., Upchurch, P., Snavely, N., Bala, K.: Material Recognition in the Wild with the Materials in Context Database. In: CVPR. (2015)

20. Vezhnevets, A., Ferrari, V., Buhmann, J.: Weakly Supervised Semantic Segmentation with a Multi-image Model. In: ICCV. (2011)
21. Vezhnevets, A., Ferrari, V., Buhmann, J.: Weakly Supervised Structured OutputmLearning for Semantic Segmentation. In: CVPR. (2012)
22. Song, H.O., Girshick, R., Jegelka, S., Mairal, J., Harchaoui, Z., Darrell, T.: On learning to localize objects with minimal supervision. In: ICML. (2014)
23. Pathak, D., Shelhamer, E., Long, J., Darrell, T.: Fully Convolutional Multi-Class Multiple Instance Learning. In: ICLR. (2015)
24. Xu, J., Schwing, A.G., Urtasun, R.: Tell Me What You See and I will Show You Where It Is. In: CVPR. (2014)
25. Pinheiro, P.O., Collobert, R.: From Image-level to Pixel-level Labeling with Convolutional Networks. In: CVPR. (2015)
26. Papadopoulos, D.P., Clarke, A.D.F., Keller, F., Ferrari, V.: Training Object Class Detectors from Eye Tracking Data. In: ECCV. (2014)
27. Ahmed, E., Cohen, S., Price, B.: Semantic Object Selection. In: CVPR. (2014)
28. Firestone, C., Scholl, B.J.: Please Tap the Shape, Anywhere You Like: Shape skeletons in human vision revealed by an exceedingly simple measure. Psychological Science (2014)
29. Saupp´e, A., Mutlu, B.: Robot Deictics: How Gesture and Context Shape Referential Communication. In: Proceedings of the 2014 ACM/IEEE international conference on Human-robot interaction. (2014)
30. Alexe, B., Deselares, T., Ferrari, V.: Measuring the objectness of image windows. In: PAMI. (2012)
31. Hariharan, B., Arbel´aez, P., Girshick, R., Malik, J.: Simultaneous Detection and Segmentation. In: ECCV. (2014)
32. Everingham, M., Van Gool, L., Williams, C.K.I., Winn, J., Zisserman, A.: The Pascal Visual Object Classes (VOC) challenge. (2010)
33. Hong, S., Noh, H., Han, B.: Decoupled deep neural network for semi-supervised semantic segmentation. (2015)
34. Dai, J., He, K., Sun, J.: Boxsup: Exploiting bounding boxes to supervise convolutional networks for semantic segmentation. (2015)
35. Chai, Y., Lempitsky, V., Zisserman, A.: BiCoS: A Bi-level Co-Segmentation Method for Image Classification. In: CVPR. (2011)
36. Joulin, A., Bach, F., Ponce, J.: Discriminative Clustering for Image Cosegmentation. In: CVPR. (2010)
37. Chen, L.C., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L.: Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs. In: ICLR. (2015)
38. Noh, H., Hong, S., Han, B.: Learning Deconvolution Network for Semantic Segmentation. In: ICCV. (2015)
39. Hariharan, B., Arbelaez, P., Bourdev, L., Maji, S., Malik, J.: Semantic contours from inverse detectors. (2011)
40. Russakovsky, O., Li, L.J., Fei-Fei, L.: Best of both worlds: human-machine collaboration for object annotation. In: CVPR. (2015)
41. Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadarrama, S., Darrell, T.: Caffe: Convolutional architecture for fast feature embedding. In: Proceedings of the ACM International Conference on Multimedia, ACM (2014)

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值