论文阅读笔记 : Image retrieva using scene graphs


Johnson J, Krishna R, Stark M et al. Image retrieval using scene graphs[A]. Proceedings of the IEEE conference on computer vision and pattern recognition[C]. 2015: 3668–3678.

关键词

  • scene graphs
  • 图像检索

摘要

  • 利用 scene graph 进行语义图像检索

  • 对象+属性 加联系构成图谱

  • 设计了一个conditional random field graphs 来利用场景图谱进行语义图像检索

  • 利用以上条件对检索结果进行评分排序

  • 引入了一个新的数据集(5000张图片 带有场景图谱

  • 对小型和全局的场景图谱都做了实验

    结果显示优于只用图像特征做检索的方法

此方法还可以用于提高目标定位的效果

Introduction

背景

理想的图像语义检索系统不应该只考虑 ( m a n , b o a t ) (man,boat) (man,boat) 这种场景,对象之间应该有联系,如 ( m a n o n b o a t ) (man on boat) (manonboat) ,并且对象应该具有属性 ( b o a t i s w h i t e ) (boat is white) (boatiswhite)
当前检索图像的效果
上图就是当前图像检索系统的效果,并没有完全考虑对象之间的关系。所以结果并不尽如人意。


[71] C. L. Zitnick and D. Parikh. Bringing semantics into fo- cus using visual abstraction. In Computer Vision and Pat- tern Recognition (CVPR), 2013 IEEE Conference on, pages 3009–3016. IEEE, 2013. 1, 2
[72] C. L. Zitnick, D. Parikh, and L. Vanderwende. Learn- ing the visual interpretation of sentences. In Computer Vi- sion (ICCV), 2013 IEEE International Conference on, pages 1681–1688. IEEE, 2013. 1, 2
[22] A. Geiger, P. Lenz, and R. Urtasun. Are we ready for au- tonomous driving? the kitti vision benchmark suite. In Conference on Computer Vision and Pattern Recognition (CVPR), 2012. 2

应该有办法解决 ( 对 象 、 联 系 、 属 性 ) (对象 、联系 、属性) 三者之间的关系。以上三个文献通过学习**abstruct scenes ** 向这个目标迈进了重要的一步。

这种模式应用起来对图像理解和图像检索都有好处。

提出和解决问题


提出问题
这种语义推理应用到真实场景中有两个问题

  1. 在一个场景中建立两个对象之间的联系是很困难的,其难度远大于简单的图像配对。
  2. 场景图谱不断延申,可能没有尽头

[36] J. D. Lafferty, A. McCallum, and F. C. N. Pereira. Conditional random fields: Probabilistic models for segmenting
and labeling sequence data. In Proceedings of the Eighteenth
International Conference on Machine Learning, ICML ’01, 2001. 1, 5

解决问题 : 作者提出了一个新的语义图像检索框架,其基于CRF 36 的 visual scene.

CRF : conditional Random Field

[20] M. Fisher, M. Savva, and P. Hanrahan. Characterizing structural relationships in scenes using graph kernels. In ACM
SIGGRAPH 2011 papers, SIGGRAPH ’11, pages 34:1–
34:12. ACM, 2011. 1
[7] A. X. Chang, M. Savva, and C. D. Manning. Learning spatial
knowledge for text to 3D scene generation. In Proceedings of
the 2014 Conference on Empirical Methods in Natural Language Processing, EMNLP 2014, 2014. 1, 2

灵感来自于 :近来的两篇比较和生成场景的graph based 准则。

方法核心思想:

利用场景图谱作为查询条件,代替用存文本作查询条件。可以更好的体现语义对象之间的关系。

主要贡献

  • 将CRF 引入基于场景图谱的语义检索SOTA
  • 引入了一个新的数据集

正文部分

如果以后有需要会进行补充 ,现在只是大体了解这篇文章干了什么工作


结论

  1. 利用场景图谱作为视觉场景的新型表示
  2. 引入了一个新的数据集
  3. 构建了一个CRF模型用于语义图像检索
  4. SOTA
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

古承风

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值