Deep Visual-Semantic Alignments for Generating Image Descriptions摘要

图像表达

用RCNN提取图像中的物体(取概率最大的19个),然后和原始图像一起作为CNN输入,获得图像的特征向量(每幅图20个)


句子表达

使用BRNN,输入为word2vec的词向量(e)


结合图像和句子

损失函数是图像向量和句子向量的match程度



该损失函数使得匹配的图像-句子对比不匹配的对具有更高的得分,并且有余量(类似svm合页损失函数)

从匹配的词语生成连贯的短语

上面的方法生成了图像区域-词语对,现在我们需要把对应同一个图像区域的词语连接起来成为有意义的短语。使用马尔可夫随机场(即条件随机场)。定义能力函数为:


对条件随机场做参数估计,之后就能解序列问题得到最佳的状态序列,从而得到最好的短语。

生成整幅图的描述

使用RNN,并把图像向量也作为一个输入(Deep Learning一书中描述的将额外输入提供给RNN的三种方式:在每个时刻作为一个额外数据;作为初始状态h0;结合两者)


图像向量只作为第一个神经元的输入,句子结束是通过y(t)为结束符(Deep Learning一书中描述的三种确定输出长度的机制:对应序列末端的特殊符号;模型中加入一个伯努利输出表明是否结束;输出一个参数代表长度本身)



  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值