Watch,Listen,and Describe:Globally and Locally Aligned Cross-Modal Attentions for Video Captioning

这是NAACL2018的一篇关于video caption(CV与NLP结合)的文章,paper链接https://arxiv.org/abs/1804.05448,一作是加州大学圣塔芭芭拉分校(UCSB)的PHD,作者的homepage http://www.cs.ucsb.edu/~xwang/,code还没有被released出来(作者没有release code的习惯)。
个人瞎扯: 看这篇文章主要有两个原因。

  • 1.他的导师William Wang http://www.cs.ucsb.edu/~william/ 昨天在微博上面说他们组有一篇video caption的文章达到了state-of-the-art。
  • 2.昨天刷arxiv正好看到这篇跨媒体的文章,算是比较新的文章了吧。

文章要做的事情(video caption):
输入:video(frame+audio)      输出:sentence
文章给出了一个video caption的示例如下所示。
video caption example
与state-of-the-art方法对比结果如下所示。
comparision with state-of-the-art
文章还给出了它的ablation study,如下所示。
ablation study

method

hierarchically aligned cross-modal attention (HACA) framework如下所示。
HACA framework
这篇的文章的思路是采用encoder-decoder的方式分别利用visual和audio的global和local的feature去预测sentence。
  encoder: ResNet Visual Features+VGGish Audio Features
  decoder: global+local attentive decoder
  
文章中的几个点:
Attention Mechanism: 对序列中的每一个维度的feature做加权的平均,并学习这样的一个加权平均的系数。
Hierarchical Attentive Encoder: 分别利用high-level和low-level的encoder,low-level运行s次,high-level运行一次(没有看到与 stacked two-layer LSTM的ablation study),得到global和local的feature。
Globally and Locally Aligned Cross-modal Attentive Decoder:

  • Global decoder: 将 global fusion context与word embedding of the generated word by global fusion feature做concatenation。
  • Local decoder:将 local fusion context与word embedding of the generated word by local fusion做concatenation。

最后将Global decoder与Local decoder出来的context做concatenation,利用这个concatenation好的feature做sotfmax来predict sentence。

总结:

  • 在encoder和decoder端加attention都很work。
  • Hierarchical结构比较work。个人感觉hierarchical attentive encoder-decoder(autoencoder)这样的结构应该很适合处理sequence。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值