Places: A 10 million Image Database for Scene Recognition

1.introduction
对于物体识别来说,不同环境背景下的物体有着不同的作用,因此识别物体所在的场景非常重要。尽管可以通过大量的object categories来达到识别物体的目的,但是相比于通过place category来进行识别,这要花费更多的时间。“here we describe the Places database, a quasi-exhaustive repository of 10 million scene photographs, labeled with 434 scene semantic categories, comprising about 98 percent of the type of places a human can encounter in the world.”
在这里插入图片描述
First, the algorithm must be suitable for the task, such as Convolutional Neural Networks in the large scale visual recognition andRecursive Neural Networks for natural language processing. Second, it must have access to a training dataset of appropriate coverage (quasi-exhaustive representation
of classes and variety of exemplars) and density (enoughsamples to cover the diversity of each class).
算法必须与任务相符合;算法必须能访问有合适覆盖范围和密度的数据集。
2.Places Database
Places Database继承了SUN dataset的scene categories。
Construction of the database:
①Downloading images using scene category and attributes.
Google Images, Bing Images, and Flickr
每类场景与696个形容词相连,Places和SUN数据集互补,以免出现重复的图片。
在这里插入图片描述
②Labeling images with ground truth category.
先进行第一轮筛选,因为从SUN数据集中收集到的相片有超过百分之五十的不符合预期,所以在第一轮筛选中,所有的图片都会被默认标记为NO。当每个任务中的图片符合率达到百分之九十时才会被留下。在第二轮筛选中,大概仅有百分之二十五的图片是不符合预期的,因此在第二轮中所有的图片被默认设为YES。如此循环往复。
After the two iterations of annotation, we collected one scene label for 7,076,580 images pertaining to 476 scene categories. As expected, the number of images per scene category vary greatly (i.e. there are many more images of bedroom than cave on the web). There were 413 scene categories that ended up with at least 1000 exemplars, and 98 scene categories with more than 20,000 exemplars.
在这里插入图片描述
③Scaling up the dataset using a classifier.
每个场景类别挑选1000张图片交给分类器进行学习,训练之后分类器有百分之三十二的准确度。图片在经分类器识别之后进行打分,置信度在0.8以上的交到step2中的AMT进行手动注释,结果是:
401 scene categories had more than 5,000 images per category and 240 scene categories had more than 20,000 images. In total, about 3 million images were added into the dataset.
④ Improving the separation of similar classes.
改进同义词的分类。
在这里插入图片描述
‘canyon’ and ‘mountain’ or ‘butte’ and ‘mountain’,‘jacuzzi’ and ‘swimming pool indoor’; ‘pond’ and ‘lake’; ‘volcano’ and ‘mountain’; ‘runway’ and ‘highway and road’; ‘operating room’ and ‘hospital room’.
在这里插入图片描述
After this fourth annotation step, the Places database was finalized with over 10 millions labeled exemplars (10,624,928 images) from 434 place categories.
3 PLACES BENCHMARKS
Places365-Standard and Places365-Challenge.
4 COMPARING SCENE-CENTRIC DATASETS
4.1 Dataset Diversity
不同的数据集在视角、物体种类甚至图片风格发生变化时也会产生偏见,即使是覆盖相同视觉类的数据集,在训练分类器时也有显著差异。
a good database should be dense (with a high degree of data concentration), and diverse (it should include a high variability of appearances and viewpoints).
例如在同一个卧室里拍了100000张照片,尽管数据集的密集度很高,但是多样性很差。
如何定义两张图片是否相似是一个难题,因为相似性这个概念是主观且模糊的。两张图片有相同的物体、相同的空间配置或者相同的装修风格都可以定义为相似,因而需要有一种算法来定义多样性。可以借鉴生物中描述生态系统多样性的方法。本文中方法的灵感来自辛普森多样指数,它是衡量不同物种中个体在生态系统中分布程度的指标,它与分布的熵有关。
在这里插入图片描述
在这里插入图片描述
每类中选四组,三个数据集就是十二组,测试员从中挑选重复度最高的一组。一共选了88个类别。测试结果为:测试员在百分之50的时候选择了SUN数据集,百分之17的时候选了Places数据集,百分之33的时候选择了ImageNet数据集。
在这里插入图片描述

4.2 Cross Dataset Generalization
分别在三个数据集中进行学习,然后再回到数据集中进行分类测试。当训练样本足够多时,Places dataset的识别精度最高。
在这里插入图片描述
5 CONVOLUTIONAL NEURAL NETWORKS FOR SCENE CLASSIFICATION
采用不同的CNN架构网络对数据集进行学习,然后再将其对Places205、SUN205、PLACES365进行分类。
5.1 Results on Places205 and Places365
Top-1 accuracy指分类后预测分数最靠前的图片刚好是参照标签的百分比,Top-5 accuracy是指分类后预测分数前五的照片中含参照标签的百分比。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
分类失败的主要原因为:1)在一个场景中发生的活动不够典型,如在建筑工地合影,在垃圾场露营;2)由多个场景部分组成的图像,这使得一个参照标签不足以描述整个环境。这些结果表明,需要有多种参照标签来描述环境。
因此Top-1 accuracy不太能够作为衡量标准,因为同一环境可以有多种描述,在给环境添加标签时,不同的人添加的标签也可能不同,甚至会发生多种标签适合于描述同一场景的情况。
5.2 Web-demo for Scene Recognition
做了个网页,用户可以将图片上传并进行识别,结果可以发在Facebook上。The top-5 recognition
accuracy达到了百分之72,这是非常优秀的,因为用户上传的照片不仅仅会是单纯的风景图,还会有生活中的各种照片。
在这里插入图片描述
5.3 Places365 Challenge Result
每支参赛队伍从Places365-Challenge中挑选数据进行训练,每支队伍每次提交五个识别结果,通过错误率进行比赛排名。海康威视以 9.01%的成绩夺得第一名。
5.4
通过ImageNet进行学习的网络在对象识别中更具有优势,通过Places数据集进行学习的网络在场景识别中更具优势。
6 CONCLUSION
从小数据集到ImageNet,Places这样的百万级别数据集以及其他高密度数据集的崛起,缺乏数据的机器开始通过算法不断学习,以达到人类的视觉识别效果。Places提供了一种解决场景识别问题的思想和方法,例如在某一环境中的某一行为,特定环境中的非常规行为,甚至预测未来的事件或者分析已经发生过的事件。
识别场景方面的优势要和识别物体方面的优势进行互补,现实中的照片是复杂且多样的,机器识别的成功率还有待提高。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值