关于静态图像生成句子描述的问题

最新推荐文章于 2020-11-27 10:11:03 发布

lxiaoxiaot

最新推荐文章于 2020-11-27 10:11:03 发布

阅读量1.3k

点赞数

分类专栏： machine vision 文章标签： classification parsing image internet action object

machine vision 专栏收录该内容

22 篇文章 2 订阅

订阅专栏

进入Computer Vision领域以来，很久之前就有个想法，能否给计算机一幅照片，计算机能够自动的描述图像中的内容，甚至图像中的人物以及正在发生的事情。就像是咱们小时候的看图作文似的。

自己也思考了很长时间，没有好的思路，里面涉及很多基本的问题没有被解决，像是Image Segmentation、Object Detection、Action Classification、Scene Classification以及NLP的一些问题。设计到的问题太多了。

但是现在已经有文章开始做相关工作了，下面分别描述一下。

第一篇是CMU的小牛Abhinav Gupta同学的CVPR2009的Oral，其实做的视频里的东西。

Understanding Videos, Constructing Plots – Learning a Visually Grounded Storyline Model from Annotated Videos

Abhinav Gupta, Praveen Srinivasan, Jianbo Shi and Larry S. Davis
In CVPR 2009 (Oral) (PPT)

这篇文章是通过AND-OR的图模型来叙述视频里面正在发生的运动的各个动作，包括击球、接球、扔球等。因为视频里面含有更多的信息，所以做起来也相对容易一下。

————–

第二篇是UIUC的Ali Farhadi写的，发在ECCV2010的poster。

Every Picture Tells a Story: Generating Sentences for Images
Ali Farhadi, Mohsen Hejrati, Amin Sadeghi, Peter Young, Cyrus Rashtchian, Julia Hockenmaier, David Forsyth
In proceedings of European conference on Computer Vision
(ECCV’10), 2010.

大体内容是通过建立图像到已经人工标记的句子的连线，来给图像标注句子。其实是图像标注的改进版。

Ali新发的一篇文章在CVPR2011上，论文竟然11.73M，也不压缩下，呵呵。是：

Recognition using Visual Phrases
Amin Sadeghi, Ali Farhadi
In proceedings of IEEE Conference on Computer Vision and Pattern Recognition
(CVPR’11), 2011.

大体看了一下，想法不错，还是集成组合多种元素进行识别的。

—-

再一篇文章是UCLA的I2T项目，是Song-Chun Zhu的学生写的：

Benjamin Yao, Xiong Yang, Liang Lin, Mun Wai Lee and Song-Chun Zhu I2T: Image Parsing to Text Description, Proceedings of IEEE (invited for the special issue on Internet Vision) [pdf].

通过上图就可以看出此项目其实还是一种常规的解决方法，每个基础领域都会涉及，用的现有技术，组合起来。有庞大的数据库，有很多元素数据作为基础依托。项目可以参考。

转自：http://www.shamoxia.com/html/y2011/2935.html

lxiaoxiaot

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于静态图像生成句子描述的问题

<br /><br />进入Computer Vision领域以来，很久之前就有个想法，能否给计算机一幅照片，计算机能够自动的描述图像中的内容，甚至图像中的人物以及正在发生的事情。就像是咱们小时候的看图作文似的。<br />自己也思考了很长时间，没有好的思路，里面涉及很多基本的问题没有被解决，像是Image Segmentation、Object Detection、Action Classification、Scene Classification以及NLP的一些问题。设计到的问题太多了。<br />但是
复制链接

扫一扫

专栏目录