arXiv 2019 《DCA: Diversified Co-Attention towards Informative Live Video Commenting》论文笔记

最新推荐文章于 2021-06-11 17:11:33 发布

NeverMoreH

最新推荐文章于 2021-06-11 17:11:33 发布

阅读量256

点赞数

分类专栏： vision&language # video commenting 文章标签： ALVC arXiv2019

本文链接：https://blog.csdn.net/ms961516792/article/details/107511468

版权

53 篇文章 9 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

简介

北大电子工程与计算机科学学院、华科软件工程学院、北航软件学院合作的一篇文章，算是我看到的第二篇ALVC任务方面的论文，看这个版面和参考文献格式，感觉是投了ICML。
下载链接

作者先是分析了相关工作（实际上只有AAAI2019的那一篇，链接），指出该文章中没有将视觉信息和文字信息整合在一起，可能导致信息多样性有限。surrounding comments是基于video生成的，包含video中较为重要的信息。综上，本文致力于从视频和文本中收集多样化的信息。

提出Diversified CoAttention (DCA)模型，用于从视频和文本中收集多样化的信息。
DCA模型中包括三个相互关联的组件：多视角attention（MPA）、参数正交化方法（ parameter orthogonalization technique，简称Ortho）、门控attention模块（GAM）。
取得了比以前方法（就一篇）和传统的co-attention更好的结果。

本文方法的整体框架如下图所示，MPA通过多视角设置生成多样化的相互依赖的表示，Ortho用于去除MPA结果中的冗余信息，GAM用于集成来自MPA的各种信息。

门控attention模块的结构如下图所示：

automatic evaluation（其中，带下划线的是Ma et al., 2019的实验结果）：

human evaluation：

关注