Material Recognition in the Wild with the Materials in Context Database论文笔记

摘要:

       在现实世界中,材料识别是一个有挑战性的任务。真实世界中的材料是有很丰富的表面纹理、几何形状、光照条件和杂波。这些因素使的这个问题难以处理。在这边论文,我们提出了一个新的、大规模的、在户外的材料的开放数据集(MINC),并且用深度学习在这些数据集中的图片中去获取材料识别和分割。

       MINC比之前的材料数据集大一个数量级。MINC具有多种种类和精心采样的23个categories。使用MINC,我们训练CNN网络进行两个任务:第一个使在patches中给材料分类。第二个是在整张图片中同时进行材料识别和分割。在MINC的patch-based识别,我们发现CNN结构能够取得85.2%的平均准确率。我们转换那些训练好了的CNN分类器去fully connected conditional random filed(CRF)去预测一张图片中所有像素的材料。取得了73.1%的分类平均准确率。我们的实验证明了拥有像MINC一样的大规模的、采样良好的数据集对于材料识别和分割来说是非常关键的。

 

1..引言:

       材料识别在我们理解世界以及与世界的相互作用中扮演这很重要的角色。为了判断表面是否适合行走、或者用什么样的方式去抓取物体,我们必须认识到构成我们周围环境的材料。自动材料识别可以在很多应用中发挥作用,包括机器人、产品搜索以及室内设计的图像编辑。但是在真实世界的图像的材质识别是很有挑战性的。很多材料的种类,比如布或者木材,在视觉上非常丰富,并且蕴含各种各样的外观。材料更进一步变化,因为光线和形状的不同。一些种类,比如说塑料和陶瓷,总是平滑和无特色,需要微妙的线索或背景来区分它们。

       使用了大规模数据集(比如说ImageNet, SUN和Places)的CNN有了重大突破在物体识别和场景分类。材料识别同样可以通过大规模数据和学习来提升。至今,在材料识别的进步被中等规模大小的数据集,比如Flickr Material Database(FMD)促进。FMD包含了10个材料categories,每个category拥有100个样本的图片。那些图片是被非常小心的选择去说明这些种类的各种外观。FMD被用于材料感知和识别的新feature和learning方法的研究。虽然FMD朝着材料识别迈出了重要的一步,但它不足以对真实世界的图片进行分类。这是因为越相对较小的categories集,每个种类的图片越少。也因为这个数据集是围绕手工挑选的材料的图标图面。OpenSurfaces数据集通过真实世界的图像,引入105,000个材料分割,这是远远大于FMD的。然后,在OpenSurfaces中,很多categories是欠采样的,只有数十张图片。

       我们的一个主要贡献是一个新的,良好采样的材料数据集,被称为Materials in Context Database(MINCE), 它包含3百万个材料样本。MINC是非常多样性的,一些冷门的categories也拥有更多的样本,并且比现有的数据集大得多。MINC从Flick images提取数据,其中包含很多“常规”场景;也从Houzz images提取了专业摄影师的室内设计的图片。这些图片都有不同的特点,增加了可以被识别的材料的范围。Figure 2是我们数据的例子。我们在线公布了全部数据集http://minc.cs.cornell.edu/

       我们通过训练在这个新数据集上不同的CNN结构来进行材料识别。我们对网络结构、图片上下文和整张图片中分区域训练数据的size进行实验。更深层次的,我们建立了patch classification结果和使用fully connected conditional random filed(CRF)演示了图片的材料识别和分区。通过替换CNN的全连接层,计算负担明显低于朴素的滑动窗口方法。

       总结来说,我们做了2个新的贡献:

  1. 我们引入了一个新的材料数据集,MINC,和3个阶段的crowdsourcing pipeline为了有效地手机数百万的点击标签(Section 3.2)。
  2. 为了材料识别和分割,提出了新的语义分割方法。它合并了fully-connected CRF 和基于CNN learned features一元预测(Section 4.2)。

 

2.以前的工作

       Material Databases以前的很多工作注意力集中于给一些textures 或者material samples的实例进行分类。比如说,CUReT database 包含61种材质样本,每一种捕获205种不同的光线和观看情况。这导致对instance-level texture或者material classification的研究,以及对构建姿势和照明不变的features挑战的理解。后来,每个category有着更多样性的样本的数据集开始出现,比如说KTH-TIPS。这些数据集引导探索了如何从一个材料的样本推广到另一种材料的样本,比如说从木材的样本到另一种完全不同的样本。最近还探索了真实世界的texture属性。

       在分类材料数据库领域,Sharan等人发布了FMD。后来,Bell等人发布了OpenSurfaces。它包含了超过2万个真实世界的毕竟被labeled的材料和物体,通过使用multi-stage crowdsourcing pipeline。因为OpenSurfaces 图片是从Flickr的用户图片抽取来的,material 样本有真实世界的上下文,这与之前的数据库(CUReT,KTH-TIPS,FMD,包含被剪裁的独立样本)相反。虽然OpenSurfaces是材料数据库的良好起点,但我们通过数百万个新标签大幅扩展它。

       Convolutional neural networks. 虽然CNN已经存在了几十年,但早期的成功,比如LeNet,它们最近才取得了object classification和detection的当前最尖端成果,取得了最大的进步。由ILSVRC challenge驱动,我们看见很多成功的CNN结构,它们由Krizhevsky等在SuperVision network的工作和最近的结构,包含GoogLeNet。除了image classification,CNN用于detection和localization of objects。最近的工作包含R-CNN,Overfeat和VGG.最后,与我们的目标,per-pixel material segmentation,相关,Farabet等使用muti-scal CNN去预测segmentation中每个pixel所属的class。Oquab等使用滑动窗口的方法去localize patch classification物体。我们在deep learning的这一部分工作的基础上解决了material recognition和segmentation的问题。

 

3.The Materials in Context Database(MINC)

       我们选择来描述我们建立新material database的方法。为什么要使用新的database?我们需要一个满足一下条件的dataset:

  1. Size:它应该足够大,能够让learning methods可以泛化。
  2. Well-sampled:冷门的categories应该也要有很多数量的样本。
  3. Diversity:图片应该涵盖各种材质在真实世界的各种外观。
  4. Number of categories:它应该包含现实世界中的很多不同的materials。

3.1. Sources of data

       我们决定从公众开始,众包OpenSurfaces数据集作为MINC的种子,因为它是从具有合理多样性的日常现实场的Flickr图像中提取的。此外,MINC具有大量categories和所有先前数据库的大多数样本。

       尽管OpenSurfaces data是一个好的开始,它还是由一些限制。很多categories没有被well sampled。尽管最大的categories,比如wood包含了将近20K的样本,冷门的种类,比如water,只有数十个样本。这个数据的不平衡是因为Opensurfaces数据集的注释方式;Amazon Mechanical Turk(AMT)可以自由选择任意material subregion进行segment。Workers进场倾向于使用某些常见的materials或者salient objects,而不是鼓励它们标记不同的materials。此外,图片来自单个源(Flickr)。

       我们决定给OpenSurfaces增加更多的数据,特别是underrepresented material categories。至少增加到每个material category 10K个样本。我们从imagery,professional photos on the interior design website Houzz (houzz.com)上收集数据。我们使用不同源的数据的目的是【尽管Houzz photo是更加“staged”(relative to Flickr photos),它们事实上展现出更多的materials的多样性】。比如,Houzz photos包含了很多类型的抛光的石头。有了这些图像数据源,我们现在描述我们如何收集material annotations

3.2. Segments,Clicks,and Patches

       什么特定类型的material annotations可以构建成良好的database? 我们该如何收集这些annotations?要收集的material annotations在很大程度上取决于我们希望为其生成训练数据的任务。对于一些任务,比如说scene recognition, whole-image labels 是足够的。对于object detection,labels bounding boxes 作为 PASCAL是经常被使用。对于segmentation或者scene parsing任务,per-pixel segmentations 是需要的。每种风格的annotation都带有与其复杂性成比例的成本。对于materials,我们决定关注两个问题:

  1. Patch material classification。给出一个image patch,判断中间的部分是什么类型的material。
  2. Full scene material classification。给出一个full image,产生一个full per-pixel segmentation和labeling。也被认为是semantic segmentation或者scene parsing(但是我们的工作聚焦于materials)。记住,classification可以是segmentation的组成部分。比如滑动窗口的方法。

Segments. OpenSurfaces 包含精心绘制的多边形material segmentations。它们包含相同材质区域(same-material regions)。为了形成MINC的基础,我们选择了具有高可信度的OpenSurfaces细分(inter-worker agreement)和低可信度的手动策划细分,总共72K形状。为了平衡categories,我们人为的segmented上百个额外的样本给sky,foliage和water。

       因为OpenSurfaces的一些种类对人来说难以区分,我们综合了那些种类(把它们当成一种category?)。我们发现很多AMT worker 不能区分concrete和stone,clear plastic和opaque plastic,granite和marble。因此,我们将它们分别合并进stone,plastic和polished stone。如果没有这些合并。这些类别中的样本会被判断错误。最终由23种categories,显示在Table 1。 Category other 是不同的,它是通过组合各种较小的categories创建的。

       Clicks. 因为我们想要扩大数据集到百万级别的样本,我们决定增加OpenSurfaces segments通过收集clicks:在图片中有material label的单个点,这些点可以更方便、更快速地收集。Figure 3 展示了我们的pipeline for collecting clicks。

Figure 3:worker A从一堆图片中挑选出含有某个material的图片, worker B从一张图片中选出选包含某个material的patches,worker C判断patch属于哪个material。

最初,我们尝试要求workers去点击图片中的material。然后&#x

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值