论文学习:Microsoft COCO: Common Objects in Context
Abstract
- 为了促进物体识别的发展,COCO数据集是在把物体识别放到更广泛的场景理解问题下的情况下被制作而成的。
- 每个物体都被单独分割标注,这样做的目的是进行精确的物体定位。
- 数据集包含91种物体类别,2500000个被标注的物体,328000张图片
INTRODUCTION
论文要点
-
对可见场景的理解包括以下几种任务:
- 识别出所呈现出的物体是什么
- 在2维或3维空间中对物体定位
- 决定物体和场景的属性
- 找出物体之间的关系并对场景进行描述
现有的数据集都适用于场景理解的第一个任务。
-
COCO数据集专注于解决3大核心问题:
-
检测非图标视图(non-iconic views)中的物体:
图标视图指的是物体大致位于图片中间,没有遮挡,轮廓清晰的这种。
非图标视图指的是存在于背景中,有遮挡的,杂乱的这种。
-
物体之间的上下文推理:
在一张自然图片中识别出多个物体是一个挑战,因为图片中的物体存在小尺寸和容易混淆的问题,想要实现识别出多个物体,需要使用上下文(cont
-