关于静态图像生成句子描述的问题

进入Computer Vision领域以来,很久之前就有个想法,能否给计算机一幅照片,计算机能够自动的描述图像中的内容,甚至图像中的人物以及正在发生的事情。就像是咱们小时候的看图作文似的。

自己也思考了很长时间,没有好的思路,里面涉及很多基本的问题没有被解决,像是Image Segmentation、Object Detection、Action Classification、Scene Classification以及NLP的一些问题。设计到的问题太多了。

但是现在已经有文章开始做相关工作了,下面分别描述一下。

第一篇是CMU的小牛Abhinav Gupta同学的CVPR2009的Oral,其实做的视频里的东西。

https://i-blog.csdnimg.cn/blog_migrate/afd3d8f7efef7f13b2fdf203e3084607.pngUnderstanding Videos, Constructing Plots – Learning a Visually Grounded Storyline Model from Annotated Videos

Abhinav Gupta, Praveen Srinivasan, Jianbo Shi and Larry S. Davis
In CVPR 2009 (Oral) (PPT)

这篇文章是通过AND-OR的图模型来叙述视频里面正在发生的运动的各个动作,包括击球、接球、扔球等。因为视频里面含有更多的信息,所以做起来也相对容易一下。

————–

第二篇是UIUC的Ali Farhadi写的,发在ECCV2010的poster。

Every Picture Tells a Story: Generating Sentences for Images
Ali Farhadi, Mohsen Hejrati, Amin Sadeghi, Peter Young, Cyrus Rashtchian, Julia Hockenmaier, David Forsyth
In proceedings of European conference on Computer Vision
(ECCV’10), 2010.

大体内容是通过建立图像到已经人工标记的句子的连线,来给图像标注句子。其实是图像标注的改进版。

Ali新发的一篇文章在CVPR2011上,论文竟然11.73M,也不压缩下,呵呵。是:

Recognition using Visual Phrases
Amin Sadeghi, Ali Farhadi
In proceedings of IEEE Conference on Computer Vision and Pattern Recognition
(CVPR’11), 2011.

大体看了一下,想法不错,还是集成组合多种元素进行识别的。

—-

再一篇文章是UCLA的I2T项目,是Song-Chun Zhu的学生写的:

Benjamin Yao, Xiong Yang, Liang Lin, Mun Wai Lee and Song-Chun Zhu I2T: Image Parsing to Text Description, Proceedings of IEEE (invited for the special issue on Internet Vision) [pdf].

http://www.stat.ucla.edu/~zyyao/projects/I2T/diagram_semanticweb.gif

通过上图就可以看出此项目其实还是一种常规的解决方法,每个基础领域都会涉及,用的现有技术,组合起来。有庞大的数据库,有很多元素数据作为基础依托。项目可以参考。

 

转自:http://www.shamoxia.com/html/y2011/2935.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值