Image Captioning with Semantic Attention具有语义注意的图像标题学习笔记

本文提出了一种新的图像字幕算法,结合自上而下和自下而上的视觉信息,利用语义注意模型。通过CNN和RNN结合属性检测,提高了标题生成的性能,尤其是在BLEU、Meteor、Rouge-L和CIDEr等评估指标上表现优越。
摘要由CSDN通过智能技术生成

Image Captioning with Semantic Attention具有语义注意的图像标题学习笔记

1主要贡献:

本文的主要贡献是一种新的图像字幕算法,该算法基于一种新颖的语义注意模型。我们的注意模型自然地将复杂神经网络框架中的自上而下和自下而上方法中的视觉信息结合起来。与最先进的方法相比,我们的算法可以显着提高性能。

2论文模型:

首先从图像中提取自上而下和自下而上的特征,利用cnn来进行特征提取,构建由v表示的全局视觉描述,还运行一组属性检测器(属性检查器 是我们查看并编辑当前选中节点和组件属性的工作区域。就会在 属性检查器 中显示该节点的属性和节点上所有组件的属性以供您查询和编辑)来获取最有可能出现在图像中的可视属性或概念{}的列表,每个属性ai对应于我们的词汇集或字典Y中的条目,我们根据ai去描绘他的特征。
然后这些特征都被输入回归神经网络(RNN)以生成标题
在这里插入图片描述
图:提议的图像字幕系统的框架。将CNN响应v和属性检测的视觉特征注入RNN(虚线箭头)并通过反回路(蓝色箭头)融合在一起。输入模型和输出模型φ都强制关注属性

与以前的图像字幕方法不同,我们的模型有一种独特的方式来利用和组合不同的视觉信息源。CNN图像特征v仅用于初始输入节点,其预期为RNN提供图像内容的快速概览。一旦初始化RNN状态以包含整体视觉上下文&#x

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值