视频预训练界的HERO！微软提出视频-语言全表示预训练模型HERO，代码已开源！...

最新推荐文章于 2023-06-26 23:43:50 发布

我爱计算机视觉

最新推荐文章于 2023-06-26 23:43:50 发布

阅读量669

点赞数

文章标签： python 计算机视觉机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/moxibingdao/article/details/121369175

版权

关注公众号，发现CV技术之美

▊ 写在前面

在本文中，作者提出了HERO，一个新的大规模视频+语言综合表示学习框架。HERO以层次结构编码多模态输入，其中视频帧的局部上下文 通过多模态融合被跨模态Transformer（Cross-modal Transformer） 捕获，而全局视频上下文 由时间Transformer（Temporal Transformer） 捕获。

除了标准的 Masked Language Modeling(MLM) 和Masked Frame Modeling(MFM) 外，作者还设计了两个新的预训练任务：

(i) 视频字幕匹配( Video-Subtitle Matching，VSM) ，其中模型预测全局和局部时间对齐；

(ii) 帧顺序建模(Frame Order Modeling，FOM) ，其中模型预测打乱视频帧的正确顺序。

HERO在HowTo100M和大规模电视数据集上进行联合训练，以了解多个域的视频信息。综合实验表明，HERO在基于文本的视频/视频时刻检索、视频问答(QA)、视频和语言推理和视频字幕任务上取得了SOTA水平。此外。作者还提出了两个新的具有挑战性的基准测试——How2QA 和How2R 的视频QA和检索。

▊ 1. 论文和代码地址

HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training

论文地址：https://arxiv.org/abs/2005.00200

代码地址：https://github.com/linjieli222/HERO

▊ 2. Motivation

受BERT启发，大规模的多模态预训练在视觉与语言研究领域盛行，比如ViLBERT，LXMERT，UNITER等等。然而，大多数大规模的预训练模型都是为静态图像量身定制的，而不是动态视频。

VideoBERT是第一个应用BERT来学习视频文本对的联合嵌入的方法。但由于只有离散的token被用来表示视频帧，丰富的视频帧特征并没有得到充分利用。为了解决这一点，CBT提出使用对比损失，但仅用于视频表示学习。

目前，一些约束条件固有地限制了现有模型的成功：

1) 大多数模型设计都是对BERT的直接调整，以字幕句子和视觉帧的简单concat结果作为输入，同时失去了视频和文本模态之间的时间对齐。

2) 预训练任务直接借鉴图像+文本预训练方法，而不利用视频的顺序性质。

3) 与现有工作中研究的不同图像域相比，当前视频模型中使用的视频数据集仅限于烹饪或叙述教学视频，不包括包含动态场景和复杂社会互动的视频源。

为了解决这些挑战ÿ

最低0.47元/天解锁文章

我爱计算机视觉

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
视频预训练界的HERO！微软提出视频-语言全表示预训练模型HERO，代码已开源！...

关注公众号，发现CV技术之美▊写在前面在本文中，作者提出了HERO，一个新的大规模视频+语言综合表示学习框架。HERO以层次结构编码多模态输入，其中视频帧的局部上下文通过多模态融合被跨...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。