(reading)Deep Visual-Semantic Alignments for Generating Image Descriptions

**作者:AK大神和李飞飞大神 **

发表于2015年的CVPR

文章概述:这篇文章提出了一个视觉语义的对齐模型用来推断图像区域与语句片段的对应关系,并将对齐好的图像区域和语句片段作为训练数据,用来训练提出的另一个多模态的RNN模型,该模型通过输入测试图像最终生成该图像的文本描述。

过程:

**视觉语义对齐模型通过构造一个结构化的目标函数,利用多模态嵌入空间来对齐视觉区域和语句片段。**

1. 首先利用一个预训练好的区域卷积神经网络(RCNN)检测图像上的物体,每个图像取前19个检测到的图像区域以及图像本身进行CNN特征提取,每个图像块的像素在分类前都转化为全连接层的4096维activations,并形成一个h×4096维的矩阵作为多模态嵌入空间的输入。

2. 然后利用双向循环神经网络(BRNN)将图像对应的描述语句中的单词序列作为输入将每个单词映射到同样的h维的多模态嵌入空间,多模态嵌入空间通过计算图像区域向量和单词向量间的內积和为视觉区域和语句片段间的对应关系进行评分,评分越高,表明其对应关系越强。

3. 多模态RNN模型是以对齐好的图像区域和语句片段作为训练数据,将测试图像经过CNN学习的向量作为输入,在第一步仅通过additive bias interactions确认图像信息上RNN的预测,之后根据当前词和之前的上下文信息来预测下一个词,不断迭代这个过程,生成所有的词,预测过程的开始和结束都用专有的向量表示,结束标识是设置的目标标签,通过梯度下降法去最小化损失函数以最大化目标函数,从而生成图像对应的文本描述。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值