EMNLP 2022 | LiteVL：具有增强时空建模的高效视频-语言学习

最新推荐文章于 2024-09-18 10:40:31 发布

Amusi（CVer）

最新推荐文章于 2024-09-18 10:40:31 发布

阅读量207

点赞数

文章标签：音视频学习人工智能计算机视觉深度学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247565694&idx=3&sn=0f5781e30c1649249b05dacd0e13106b&chksm=f9a0b3f1ced73ae7b84d3d1ccad3236a839a19ecb6c73f63089a9428f48664d8eb94d1769f33&scene=126&&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—> CV 微信技术交流群

本文主要介绍一下我们最近被EMNLP 2022接收的一篇工作：

LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal Modeling

网址：https://arxiv.org/abs/2210.11929

沿着从大规模图文多模态预训练迁移适配到视频多模态任务的思路，我们提出了模型LiteVL，它利用图文预训练模型BLIP来初始化参数，可以直接在下游任务上微调而不需要进行额外的昂贵的视频文本预训练。并且为了增强图像语言模型中缺乏的时间建模，我们提出在BLIP的Image encoder中增加具有动态时间缩放（dynamic temporal scaling）的时间注意力模块。除了模型方面的这一适配之外，我们还提出了一种非参数池化text-dependent pooling，以自适应地重新加权以文本为条件的细粒度视频嵌入。我们选取了两个具有代表性的下游任务，即文本-视频检索和视频问答，来验证所提出方法的有效性。实验结果表明，所提出的LiteVL在没有任何视频文本预训练的情况下，甚至明显优于以前的视频文本预训练模型。

1. Motivation

近期许多Video-language modeling的工作往往基于大规模video-text数据集 (WebVid2M，CC-3M，HowTo100M) 上进行预训练，然后在下游任务的数据集上微调，而预训练的成本往往十分昂贵。另一方面，学习细粒度的visual-language对齐往往需要利用离线的目标检测器 (e.g., ActBERT) 来捕捉物体信息，但却受限于检测器有限的类别数量 (e.g., 在MSCOCO数据集上训练的目标检测器只能检测出不到100个类别) 和昂贵的计算开销。而且没有充分利用来自文本数据的监督信息。此外，以往的稀疏帧采样的video-text模型是利用image encoder在大规模图文对上预训练的，它忽略了视频理解所需要的时序信息建模 (e.g., CLIPBERT)。最近，在单一视频模态领域的研究上，基于预训练的图像编码器ViT初始化而来的TimeSformer在许多下游的视频任务上性能表现很好，它相比ViT仅仅插入了额外的一层用ViT的注意力层初始化来的时间注意力层。

2. Solution

我们提出了一种简单且高效的视频语言模型LiteVL，它是从近期的预训练图像语言模型BLIP初始化而来的，并且分别从模型层面和特征层面做了时域信息增强。

对于模型层面，我们提出用一组具有可学习scaling factor的时间注意层明确插入原始image backbone中，可以针对每个下游任务进行训练调整（Dynamic Temporal Scaling）：

对于特征层面，我们设计了一种无参的特征池化方法（Text-dependent Pooling），以学习基于文本描述的细粒度时间-空间视频特征：

模型框架和动态时序scaling

Text-dependent Pooling

3. Experiments

在三个视频文本检索数据集上和BLIP的性能比较：

我们提出的LiteVL由于在模型和特征方面的显式时间建模，最终性能优于原始BLIP。

关于Dynamic Temporal Scaling和Text-dependent Pooling的消融实验

通过提出的轻巧的动态时间缩放自适应地根据每个特定任务调整框架级别的重要性，使性能得到进一步提高。此外，与仅使用原始特征相比，使用其他空间或时间池化后的特征会更好。

逐层的平均temporal scaling可视化分析

折线图的变化趋势显示了video encoder的浅层更多地集中在理解每个帧的空间内容上，并更少注意不同帧之间的时间依赖性。当层的深度增加时，每个帧的空间特征变得更加全局，并且该模型逐渐寻求学习它们之间的时间依赖性。

Grad-CAM可视化分析

上图展示了Grad-CAM可视化，提出的LiteVL有效地捕捉了不同帧之间的细微差异。这也表明我们提出的text-dependent pooling为video-grounded text encoder提供了丰富的信息。

4. Conslusion

我们提出了LiteVL，这是一种视频语言模型，它无需大量的视频语言预训练或目标检测器。LiteVL从预先训练的图像语言模型BLIP中继承了空间视觉信息和文本信息之间已经学习的对齐。然后，我们提出了具有动态时间缩放的额外时间注意力块，以学习视频帧中的时间动态。我们还引入了一种无参的text-denpendent pooling，该方法基于文本描述来对不同帧或者空间位置进行加权，从而实现了细粒度的视频语言对齐。实验结果表明，我们的LiteVL优于利用了视频文本预训练的最先进方法。

点击进入—> CV 微信技术交流群

CVPR/ECCV 2022论文和代码下载

后台回复：CVPR2022，即可下载CVPR 2022论文和代码开源的论文合集

后台回复：ECCV2022，即可下载ECCV 2022论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer222，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer222，进交流群
CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群
▲点击上方卡片，关注CVer公众号