视频预训练界的HERO!微软提出视频-语言全表示预训练模型HERO,代码已开源!...

关注公众号,发现CV技术之美

 写在前面

在本文中,作者提出了HERO,一个新的大规模视频+语言综合表示学习框架。HERO以层次结构编码多模态输入,其中视频帧的局部上下文 通过多模态融合被跨模态Transformer(Cross-modal Transformer) 捕获,而全局视频上下文时间Transformer(Temporal Transformer) 捕获。

除了标准的 Masked Language Modeling(MLM)Masked Frame Modeling(MFM) 外,作者还设计了两个新的预训练任务:

(i) 视频字幕匹配( Video-Subtitle Matching,VSM) ,其中模型预测全局和局部时间对齐;

(ii) 帧顺序建模(Frame Order Modeling,FOM) ,其中模型预测打乱视频帧的正确顺序。

HERO在HowTo100M和大规模电视数据集上进行联合训练,以了解多个域的视频信息。综合实验表明,HERO在基于文本的视频/视频时刻检索、视频问答(QA)、视频和语言推理和视频字幕任务上取得了SOTA水平。此外。作者还提出了两个新的具有挑战性的基准测试——How2QAHow2R 的视频QA和检索。

 1. 论文和代码地址

212a2903718c6e57a07e4b4125048c9c.png

HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training

论文地址:https://arxiv.org/abs/2005.00200

代码地址:https://github.com/linjieli222/HERO

 2. Motivation

受BERT启发,大规模的多模态预训练在视觉与语言研究领域盛行,比如ViLBERT,LXMERT,UNITER等等。然而,大多数大规模的预训练模型都是为静态图像量身定制的,而不是动态视频。

VideoBERT是第一个应用BERT来学习视频文本对的联合嵌入的方法。但由于只有离散的token被用来表示视频帧,丰富的视频帧特征并没有得到充分利用。为了解决这一点,CBT提出使用对比损失,但仅用于视频表示学习。

目前,一些约束条件固有地限制了现有模型的成功:

1) 大多数模型设计都是对BERT的直接调整,以字幕句子和视觉帧的简单concat结果作为输入,同时失去了视频和文本模态之间的时间对齐。

2) 预训练任务直接借鉴图像+文本预训练方法,而不利用视频的顺序性质。

3) 与现有工作中研究的不同图像域相比,当前视频模型中使用的视频数据集仅限于烹饪或叙述教学视频,不包括包含动态场景和复杂社会互动的视频源。

为了解决这些挑战ÿ

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值