论文解读VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding

简介

论文链接: link.
vlm是一个task-agnostic multi- modal pre-training approach。无特定任务的多模态预训练方法。用于视频理解。主要贡献如下:
In summary, the main contributions of this paper are as follows: (1) we propose to pre-train a task- agnostic encoder for video understanding; (2) we introduce masked modality model (MMM) and masked token loss for cross-modal fusion during pre-training without sacrificing separability; (3) experimental results show that the proposed simple baseline achieves competitive performance with significantly fewer parameters.

提出一个encoder,提出一个预训练任务 mmm。 实验结果很好。

模型介绍

Assume we have a clip (v, t) sampled from a video, where v and t corresponds to video modality and text modality, respectively. Since videos are signals in continuous space, we first extract token embed- dings from raw videos. We decode v into frames and then feed them into a (frozen) video encoder Encodervideo(·) and a trainable MLP layer to obtain video tokens:

给定一个视频片段,将其转化为帧,然后将这些frame 送到一个不可训练的特征提取器,这个提取器是 S3D 。 然后提取后输入到一个mlp,mlp本质就是几个fc层。
文本的处理与bert相同。最后再连接起来输入到bert。输入如下:
在这里插入图片描述
只不过在训练时会随机mask,这个等会再说。 预测mask的token时也是经过一个线性层。 多模态预训练模型上的改进还是比较少的,大多是改进训练任务。

预训练方法

MFM-MLM:这是最常见的训练任务了,mlm没啥好说的与bert一致。
mfm mask frame model: mask frame 的方式就是将frame token全置为0. 然后使模型还原。这里使用的损失是noisy contrastive estimation (NCE)。
NCE 的思想很简单,它希望我们将真实的样本和一批“噪声样本”进行对比,从中发现真实样本的规律出来。 在word2vector 中负采样就是nce的一种。

在这里插入图片描述
以这个例子来说,他就将损失函数转化成十分类似于softmax,ev 是预测mask出来的frame, xv是mask掉的原始frame,xj 是所有的一个batch中没有被mask的frame token,简单通俗的讲就是让 ev 于 xv 的内积 在 ev 于所有的xj的内积中属于最大。

Masked Modality Model:

在这里插入图片描述
什么是mmm,就是完全将一个模态完全mask掉,要么全部mask掉frame 要么全部mask掉text。其训练时有一半的样本是使用mlm-mfm, 另一半样本采用mmm, 在mmm中,一半mask frame,一半mask text。

其损失函数将三种方法使用统一的损失:
在这里插入图片描述
该损失函数类似于我刚才讲的那个。(ev 是预测mask出来的frame, xv是mask掉的原始frame,xj 是所有的一个batch中没有被mask的frame token,简单通俗的讲就是让 ev 于 xv 的内积 在 ev 于所有的xj的内积中属于最大。)与刚才的区别就是xj不只有batch中没有被mask的frame token,还加上了整个bert 的word embedding 词库。简单说就是既可以预测是frame ,也可以预测text。

下游任务及实验

在这里插入图片描述
实验部分主要是与其他模型效果做对比,还有损失函数的对比,及一些mask 率的消融实验等等。

一些细节

模型采用bert base,视频一秒提取一个frame,frame通过预训练的s3d 提取512维特征,经过mlp变为768. bert的最大长度是96,前面32为frame token,剩下的为text token 和特殊token。

以上就是vlm的主要内容。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值