关注公众号,发现CV技术之美
▊ 写在前面
在本文中,作者提出了HERO,一个新的大规模视频+语言综合表示学习框架。HERO以层次结构编码多模态输入,其中视频帧的局部上下文 通过多模态融合被跨模态Transformer(Cross-modal Transformer) 捕获,而全局视频上下文 由时间Transformer(Temporal Transformer) 捕获。
除了标准的 Masked Language Modeling(MLM) 和Masked Frame Modeling(MFM) 外,作者还设计了两个新的预训练任务:
(i) 视频字幕匹配( Video-Subtitle Matching,VSM) ,其中模型预测全局和局部时间对齐;
(ii) 帧顺序建模(Frame Order Modeling,FOM) ,其中模型预测打乱视频帧的正确顺序。
HERO在HowTo100M和大规模电视数据集上进行联合训练,以了解多个域的视频信息。综合实验表明,HERO在基于文本的视频/视频时刻检索、视频问答(QA)、视频和语言推理和视频字幕任务上取得了SOTA水平。此外。作者还提出了两个新的具有挑战性的基准测试——How2QA 和How2R 的视频QA和检索。
▊ 1. 论文和代码地址
HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training
论文地址:https://arxiv.org/abs/2005.00200
代码地址:https://github.com/linjieli222/HERO
▊ 2. Motivation
受BERT启发,大规模的多模态预训练在视觉与语言研究领域盛行,比如ViLBERT,LXMERT,UNITER等等。然而,大多数大规模的预训练模型都是为静态图像量身定制的,而不是动态视频。
VideoBERT是第一个应用BERT来学习视频文本对的联合嵌入的方法。但由于只有离散的token被用来表示视频帧,丰富的视频帧特征并没有得到充分利用。为了解决这一点,CBT提出使用对比损失,但仅用于视频表示学习。
目前,一些约束条件固有地限制了现有模型的成功:
1) 大多数模型设计都是对BERT的直接调整,以字幕句子和视觉帧的简单concat结果作为输入,同时失去了视频和文本模态之间的时间对齐。
2) 预训练任务直接借鉴图像+文本预训练方法,而不利用视频的顺序性质。
3) 与现有工作中研究的不同图像域相比,当前视频模型中使用的视频数据集仅限于烹饪或叙述教学视频,不包括包含动态场景和复杂社会互动的视频源。
为了解决这些挑战ÿ