(reading)Deep Visual-Semantic Alignments for Generating Image Descriptions

最新推荐文章于 2023-10-21 15:56:25 发布

smile909

最新推荐文章于 2023-10-21 15:56:25 发布

阅读量660

点赞数

分类专栏： vqa 文章标签： paperread

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/smile909/article/details/77511560

版权

vqa 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

**作者：AK大神和李飞飞大神 **

发表于2015年的CVPR

文章概述：这篇文章提出了一个视觉语义的对齐模型用来推断图像区域与语句片段的对应关系，并将对齐好的图像区域和语句片段作为训练数据，用来训练提出的另一个多模态的RNN模型，该模型通过输入测试图像最终生成该图像的文本描述。

过程：

**视觉语义对齐模型通过构造一个结构化的目标函数，利用多模态嵌入空间来对齐视觉区域和语句片段。**

1. 首先利用一个预训练好的区域卷积神经网络（RCNN）检测图像上的物体，每个图像取前19个检测到的图像区域以及图像本身进行CNN特征提取，每个图像块的像素在分类前都转化为全连接层的4096维activations，并形成一个h×4096维的矩阵作为多模态嵌入空间的输入。

2. 然后利用双向循环神经网络（BRNN）将图像对应的描述语句中的单词序列作为输入将每个单词映射到同样的h维的多模态嵌入空间，多模态嵌入空间通过计算图像区域向量和单词向量间的內积和为视觉区域和语句片段间的对应关系进行评分，评分越高，表明其对应关系越强。

3. 多模态RNN模型是以对齐好的图像区域和语句片段作为训练数据，将测试图像经过CNN学习的向量作为输入，在第一步仅通过additive bias interactions确认图像信息上RNN的预测，之后根据当前词和之前的上下文信息来预测下一个词，不断迭代这个过程，生成所有的词，预测过程的开始和结束都用专有的向量表示，结束标识是设置的目标标签，通过梯度下降法去最小化损失函数以最大化目标函数，从而生成图像对应的文本描述。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
(reading)Deep Visual-Semantic Alignments for Generating Image Descriptions

作者：AK大神和李飞飞大神发表于2015年的CVPR文章概述：这篇文章提出了一个视觉语义的对齐模型用来推断图像区域与语句片段的对应关系，并将对齐好的图像区域和语句片段作为训练数据，用来训练提出的另一个多模态的RNN模型，该模型通过输入测试图像最终生成该图像的文本描述。过程：**视觉语义对齐模型通过构造一个结构化的目标函数，利用多模态嵌入空间来对齐视觉区域和语句片段。**1. 首先利用一个预训练
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。