【Paper Reading】论文阅读Microsoft COCO:Common Objects in Context

论文下载地址:https://authors.library.caltech.edu/94215/2/1405.0312.pdf

论文中心

研究内容
通过将对象识别问题放在更广泛的场景理解问题的上下文中,来提高对象识别精度
贡献
提出了一个用于物体检测和物体分割任务,来自于自然生活场景中的新型数据集

主要内容

解决的问题
1、检测非图标视图(non-iconic views)中的物体 —— 图标视图指的是物体
2、位于图片中间,没有遮挡,轮廓也很清晰
3、物体(目标)之间的上下文推理
4、精确的物体二维空间定位
相关工作
图片分类:例如CIFAR-10、CIFAR-100、ImageNet,其中ImageNet含有大量的图片,极大地促进了图像分类的发展
物体检测:判断图片中物体所属类别,判断图片中检测物体所在位置,例如PASCAL VOC等数据集,但是边界框的精度也限制了检测算法准确率的评估
语义场景标注:对像素级别的物体进行标注并分类
COCO数据集
由非图标视图、且含有大量上下文信息的图片构成,上下文信息含有量可以用每张图片中含有的平均类别数和物体数来估计,而COCO数据集中的对象更小,因此对上下文的信息更加需要。
图片标注
由大到小,先判断大类,接着判断属于大类的物体;且保证了较高的召回率(recall);实例分割阶段,在较多的难以分割的实例中,将其所有难以分辨的单个物体实例合在一起标注,即标注为“群体”而一体分割。
MS COCO的设计适用于具有上下文信息的图片中的物体检测及分割,每一个类别拥有更多的实例,可以提高物体定位的准确率,由于小物体更难分辨,因此更需要丰富的上下文信息。
算法分析
在性能测试中(与其他数据集的比较中)可以看出,COCO含有更更丰富的图片,在某些类别的训练效果较差,其他类别则更好。COCO数据集也考虑到了噪声(某些非标准场景图片)对模型的影响。MS COCO数据集图片比PASCAL VOC的更加复杂,且在复杂数据集COCO中训练模型的泛化能力更强。

心得体会

1、在需要提出新型数据集时,首先得明确自己想要改善哪一方面的研究,想要解决什么问题。例如COCO数据集是为了提供丰富的上下文信息,且为了解决上述的三个问题,因此在收集图片中,着重收集了非标准场景及多视图图片。
2、在改善问题时,需要避免引发(或者是尽量减小)新的问题。在收集COCO数据集时,某些非标准场景图片可能会成为训练模型的噪声,会破坏模型的训练,因此在创建数据集时,应该充分探索该方面的问题。
3、在数据集的标注过程中,我们需要考虑相应的指标,比如是提高召回率或者是提高准确率,或者是两者平衡,这对模型的训练影响较大,因此我们需要充分考虑这个问题。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值