（五十三）：Deep Visual-Semantic Alignments for Generating Image Descriptions

最新推荐文章于 2022-09-23 11:48:39 发布

Laura_Wangzx

最新推荐文章于 2022-09-23 11:48:39 发布

阅读量404

点赞数

分类专栏： “情感分析”研究方向论文-精读总结文章标签：深度学习自然语言处理神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37486501/article/details/119751248

版权

“情感分析”研究方向论文-精读总结专栏收录该内容

88 篇文章 198 订阅 ¥19.90 ¥99.00

订阅专栏

本文提出了一种基于深度学习的模型，用于生成图像及其区域的自然语言描述。模型利用图像数据集和对应的句子描述，学习对齐视觉和语言数据，通过多模态嵌入将单词片段与图像区域对齐。通过双向循环神经网络（BRNN）处理句子中的单词表示，简化了依赖树关系，提升了对齐性能。此外，还介绍了一个多模态递归神经网络，它接收图像并生成文本描述，生成的描述优于基于检索的基线。实验结果显示，该模型在图像-句子对齐、生成描述等方面表现出色。

摘要由CSDN通过智能技术生成

（五十三）：Deep Visual-Semantic Alignments for Generating Image Descriptions

Abstract
1. Introduction
2 RELATED WORK
3 OUR MODEL
4 EXPERIMENTS
5 Conclusions

出处： IEEE Trans. Pattern Anal. Mach. Intell. 39(4): 664-676 (2017)——————CCF-A
代码：https://github.com/VinitSR7/Image-Caption-Generation
题目：用于生成图像描述的深度视觉语义对齐
主要内容：

Abstract

我们提出了一种生成图像及其区域的自然语言描述的模型。我们的方法利用图像数据集和它们的句子描述来学习语言和视觉数据之间的跨模态对应关系。
我们的对齐模型是基于图像区域上的卷积神经网络、句子上的双向循环神经网络(RNN)的新组合，以及通过多模态嵌入将两种模式对齐的结构化目标。
然后，我们描述了一个多模态循环神经网络体系结构，使用推断对齐来学习生成图像区域的新描述。
在Flickr8K、Flickr30K和MSCOCO数据集上的检索实验中，我们证明了我们的比对模型产生了最先进的结果。
然后，我们表明，生成的描述优于检索基线在完整的图像和新的区域级别注释数据集。
最后，我们在包含

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Laura_Wangzx 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。