XlanV Model with Adaptively Multi-Modality Feature Fusing for Video Captioning
- 发表:ACMM 2020
- idea:鉴于X-Linear Attention Network在image caption中的成功,在X-Linear Attention Network扩展了自适应模态融合模块。具体做法是使用CNN提取视频的静态特征,I3D提取视频的动态特征,然后分别输入到多层X-Linear Attention中,最后再解码的时候对两种特征进行自适应融合。
网络框架
-
encoder
输入:CNN提取的static feature和I3D提取的dynamic feature
经过:多层堆叠的X-Linear Attention+Add&Norm
输出:最后一层的输出以及每层的输出
ps:这里输入X-Linear Attention的三条线分别是K,V,Q -
Decoder
(1)LSTM
其中 v ~ r {\widetilde v}_r v r表示encoder中所有层的 V r ( m ) {V_r}^{(m)} Vr(m)的平均池化; v ~ i {\widetilde v}_i v i类似; E y t − 1 E_{y_{t-1}} Eyt−1表示上一时刻产生的输出的embedding
(2)自适应多模态融合模块
ps:融合机制受到文献【Entangled Transformer for Image Captioning】的启发,可以自适应地权衡两种特征,当一个特征并不是十分有用的时候,可以充分地利用另一个特征。
(3)attention on attention
ps:受到文献【Attention on attention for image captioning】的启发,通过glu实现attention on attention
(4)输出
实验分析
-
实验1:不同模型在不同的特征提取网络中的表现
-
实验2:静态特征与动态特征的消融实验以及与baseline的对比实验
-
小结
感觉这篇文章就是将各种image caption的方法拼凑过来