LearningSequences: image caption with region-based attention and scene factorization

原创 2015年11月18日 20:51:05

这是清华张长水老师实验室的一篇文章,关于image caption

小编自己感觉,本文主要的工作就是在于:让视觉转移信息引导单词序列,加入场景信息保证句子的丰富性。

具体流程:首先将图像做分割,分成尺度不同的patch,然后从中挑选出好的patch作为备选,然后将每个patch送入CNN中,学习得到patch的特征,将特征送入LSTM。此时再将场景信息加入,共同生成一个句子。接下来,我们将一步一步的分析流程。

1)分割。 者利用一个selective search技术,现根据颜色和纹理进行分割,然后通过融合邻域信息进行分层分割,最后选择好的区域留下。选择时有三个原则:语义信息要比较强、区域要比较原始、上下文信息要比较丰富。于是可以训练一个分类器来学习区域的好坏,并对其进行分类,选出最好的30个,将其resize为224*224,放进一个16层的VGG-Net去得到图像特征。

2)ht是叫做“abstract  meaning”,掌握着概念的转移。当在生成单词序列的时候,它以单词的标准编码。当在生成视觉信息时,会以视觉信息的标准编码。

wt是生成的单词,vt是输入的视觉元素。首先计算一下下一个视觉的Focus元素:


从公式中可以看出是先根据前一个时刻t-1的单词wt-1,前一时刻的状态ht-1和前一时刻的视觉元素vt-1来计算当前时刻t focus在ri(是指第i个patch的特征)区域上的概率pit,然后加权求和得到vt。得到vt后,再根据下面的公式求出w


3)加入场景信息。比如同样是人牵着小狗走,若走在湖边上,则标题为人牵着小狗在锻炼;若在宠物店,则可能标题变为主人在宠物店为小狗美容,所以场景信息非常重要。

第一步先对场景库里的场景进行无监督聚类,然后利用LDA(潜在的狄利克雷分布)对输入场景归类。得到场景信息S,对其进行矩阵分解:

将得到的W矩阵加入到ht-1中,然后一起输入LSTM,最后就得到了一个语义信息比较多结构又简单的图像描述。

Region Filling and Object Removal by Exemplar-Based Image Inpainting-code-2004

[1] Antonio Criminisi, Patrick Pérez, and Kentaro Toyama.Region Filling and Object Removal by Exempl...

Region Filling and Object Removal by Exemplar-Based Image Inpainting-code-2004(代码改进)

原:http://blog.csdn.net/yujiang5/article/details/46594893 VC++ 6.0 中,代码格式调整快捷键:Alt+F8;...

加入attention机制的image caption问题

这两年image caption的问题在CV领域非常火,就是输入一张图片,计算机自动输出对这张图片的文本描述。因为这个问题同时牵涉到了CV(Computer Vision)和NLP(Natural L...

论文笔记:A Model of Saliency-Based Visual Attention for Rapid Scene Analysis

论文笔记:A Model of Saliency-Based Visual Attention for Rapid Scene Analysis 论文信息 题目:A Model o...

图像显著性论文(一)—A Model of saliency Based Visual Attention for Rapid Scene Analysis

这篇文章是图像显著性领域最具代表性的文章,是在1998年Itti等人提出来的,到目前为止引用的次数超过了5000,是多么可怕的数字,在它的基础上发展起来的有关图像显著性论文更是数不胜数,论文的提出主要...

OHEM-Training Region-based Object Detectors with Online Hard Example Mining - cvpr 2016 oral

转载自http://blog.csdn.net/zimenglan_sysu/article/details/51318058 这是rbg大神的又一神作,cvpr 2016的oral paper...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:LearningSequences: image caption with region-based attention and scene factorization
举报原因:
原因补充:

(最多只允许输入30个字)