论文介绍 -- Semantic Compositional Networks for Visual Captioning

本文介绍了2017年CVPR论文中的Semantic Compositional Networks (SCN)方法,该方法通过结合语义信息与RNN/LSTM,提升视觉描述的质量。SCN-RNN和SCN-LSTM模型利用多标签分类预测的图像语义概念,以动态调整RNN/LSTM的权重,降低参数量并优化性能。在MS-COCO、Flickr3k和Youtube2Text数据集上,实验结果表明SCN模型在多个评估指标上表现优异。
摘要由CSDN通过智能技术生成

Semantic Compositional Network for Visual Captioning是2017年发表在CVPR上的一篇论文。它的作者主要来自于杜克大学、清华大学和微软研究院(美国)。在这篇论文发表前,已经有几篇关于是使用语义信息来增强解码器生成语句质量的论文。这篇文章的创新之处在于它提出了一种使用语义信息来和循环神经网络参数进行的集成的方法。多标签分类网络对图像或者视频的分类结果被当作是视觉语义信息。

用于图像描述的普通RNN模型

有图像\bold{I}和对应的描述\bold{X}。我们首先提取特征向量v(\bold{I})。这通常是预训练卷积神经网络的最后输出的特征图。为了表示的简洁,我们用v表示v(\bold{I})。长度为T的表述\bold{X}=\{x_1,x_2,x_3,...,x_T\}。不同的描述语句有不同的Tx_k被线性嵌入n_x维的低维空间得到w_t=\bold{W}x_t\bold{X}的概率可以表示为p(\bold{X}|\bold{I})=\prod_{t=1}^Tp(x_t|x_0, ..., x_{t-1},x_t,v)

对于简单的循环神经网络,它的运作可以表示如下

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值