(五十三):Deep Visual-Semantic Alignments for Generating Image Descriptions

本文提出了一种基于深度学习的模型,用于生成图像及其区域的自然语言描述。模型利用图像数据集和对应的句子描述,学习对齐视觉和语言数据,通过多模态嵌入将单词片段与图像区域对齐。通过双向循环神经网络(BRNN)处理句子中的单词表示,简化了依赖树关系,提升了对齐性能。此外,还介绍了一个多模态递归神经网络,它接收图像并生成文本描述,生成的描述优于基于检索的基线。实验结果显示,该模型在图像-句子对齐、生成描述等方面表现出色。
摘要由CSDN通过智能技术生成

  • 出处: IEEE Trans. Pattern Anal. Mach. Intell. 39(4): 664-676 (2017)——————CCF-A
  • 代码:https://github.com/VinitSR7/Image-Caption-Generation
  • 题目:用于生成图像描述的深度视觉语义对齐
  • 主要内容:
    请添加图片描述

Abstract

我们提出了一种生成图像及其区域的自然语言描述的模型。我们的方法利用图像数据集和它们的句子描述来学习语言和视觉数据之间的跨模态对应关系
我们的对齐模型是基于图像区域上的卷积神经网络、句子上的双向循环神经网络(RNN)的新组合,以及通过多模态嵌入将两种模式对齐的结构化目标。
然后,我们描述了一个多模态循环神经网络体系结构,使用推断对齐来学习生成图像区域的新描述。
在Flickr8K、Flickr30K和MSCOCO数据集上的检索实验中,我们证明了我们的比对模型产生了最先进的结果。
然后,我们表明,生成的描述优于检索基线在完整的图像和新的区域级别注释数据集。
最后,我们在包含

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值