简介
北大电子工程与计算机科学学院、华科软件工程学院、北航软件学院合作的一篇文章,算是我看到的第二篇ALVC任务方面的论文,看这个版面和参考文献格式,感觉是投了ICML。
下载链接
- task challenge:如何合理地利用视频和文本中丰富、多样的信息。
动机
作者先是分析了相关工作(实际上只有AAAI2019的那一篇,链接),指出该文章中没有将视觉信息和文字信息整合在一起,可能导致信息多样性有限。surrounding comments是基于video生成的,包含video中较为重要的信息。综上,本文致力于从视频和文本中收集多样化的信息。
贡献
- 提出Diversified CoAttention (DCA)模型,用于从视频和文本中收集多样化的信息。
- DCA模型中包括三个相互关联的组件:多视角attention(MPA)、参数正交化方法( parameter orthogonalization technique,简称Ortho)、门控attention模块(GAM)。
- 取得了比以前方法(就一篇)和传统的co-attention更好的结果。
方法
本文方法的整体框架如下图所示,MPA通过多视角设置生成多样化的相互依赖的表示,Ortho用于去除MPA结果中的冗余信息,GAM用于集成来自MPA的各种信息。
门控attention模块的结构如下图所示:
实验
automatic evaluation(其中,带下划线的是Ma et al., 2019的实验结果):
human evaluation: