《Semantic Compositional Networks for Visual Captioning》论文笔记

CVPR 2017

Semantic Compositional Networks(SCN)有效的组合各个标签,来生成描述图像整体意义的描述。《Semantic Compositional Networks for Visual Captioning》也是CNN-LSTM结构,但SCA扩展传统LSTM的每个权重矩阵为依赖于标签的权重矩阵的集成,这取决于标签存在于图像中的概率。

给定图片I,描述,其中是热独编码,词汇表大小为V,视觉特征为。第t个描述单词被线性嵌入为维的实值向量是需要学习的词嵌入向量。给定图像特征,描述X的概率为:

每个条件被指定为softmax(Vht),其中通过递归更新,被指定为零向量。对于带有简单转换函数的RNN,定义为:

其中,1表示只是函数,特征向量只在开始时被馈送给RNN,W定义为输入矩阵,U为递归矩阵。

SCN扩展卷积RNN的每个权重矩阵为一组依赖于标签的权重矩阵的一个集成,与标签存在于图像中的概率相关。SCN-RNN计算为:

其中,是根据语义概念向量s,依赖标签的权重矩阵集成。

给定,定义两个权重张量, , ,则

其中,是s中第k个元素,的二维切片。

该方法参数的数量与K成正比,对比较大的K难以实现,因此作者因式分解

其中,, , 是因子数量。将上式代入,则用RNN获得SCN:

其中,表示基于元素的相乘,在所有描述上共享,有效的捕获常见的语言模式。

使用LSTM单元归纳SCN-RNN,定义为:

对于*=I,f,o,c,定义:

最终目标函数为:

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值