YouKu-mPLUG 最大中文视频语言数据集，助力增强多模态大型模型性能-CSDN博客

关注公众号，发现CV技术之美

最近阿里达摩院发布了Youku-mPLUG，这是目前中文社区内最大的、公开的高质量视频-语言数据集。该数据集是从中国著名的视频分享网站优酷中严格筛选而来，符合安全、多样性和高质量标准。Youku-mPLUG包含来自45个不同类别的1000万个中文视频-文本对，是进行大规模预训练的理想数据源。

此外，为了便于对视频-语言模型进行全面评估，达摩院的研究者精心构建了最大的人工标注中文基准，涵盖了跨模态检索、视频描述和视频分类三个流行的视频-语言任务。Youku-mPLUG可以帮助研究人员进行更深入的多模态研究，并在未来开发更好的应用程序。

达摩院的研究者也发布了在Youku-mPLUG数据上预训练的视频语言预训练模型mPLUG-video。mPLUG-video在以上的基准测试中取得了新的SOAT结果：在视频分类方面性能提高了高达23.1%，在视频描述生成任务上的CIDEr指标上获得68.9的高分。借助于大语言模型Bloomz和GPT-3，mPLUG-video仅使用1.7%的训练参数就可以显著提升对人类指令的和视频内容的理解能力，效果显著好于video-LLaMA等大模型效果。

论文链接：https://arxiv.org/pdf/2306.04362.pdf
代码链接：https://github.com/X-PLUG/Youku-mPLUG

Youku-mPLUG中的数据例子如下：

mPLUG-video 对人类指令的和视频内容的理解：

mPLUG-video可以很好的理解视频的整体语义是“舞蹈视频”以及包含详细的视觉信息，比如“跳跃”和“扭动”等。

mPLUG-video还能轻松理解广告的内容，指出广告的类型和创作部门。

mPLUG-video可以准确指出下面视频中的关键角色是“奥特曼”，而其他两个视频大模型明显不能给出准确答案。

1. YouKu-mPLUG

1.1 现状

虽然视频-语言预训练（video-language pre-training，VLP）取得了显著的进展。但是，与英语VLP社区相比（如表格1所示），缺乏大规模高质量的公开中文VLP数据集阻碍了中文视频-语言预训练模型的研究。

此外，中文VLP社区还面临着缺乏公开基准测试数据（如表格2所示）的问题。这导致了两个重要问题：首先，该社区的发展和应用已经滞后。其次，一些研究能够通过使用其他研究无法公平比较的秘密下游基准测评获得惊人的性能，从而使得建立性能评估标准变得困难。虽然一些方法将英语文本翻译成中文[1]或基于英语视频注释数据集[2]，但英语和中文之间存在固有的语言和文化差异。

因此，该工作构建的公开的预训练数据集和评测基准是有重要意义的。

1.2 预训练数据集构建过程

基于严格的安全性、多样性和质量标准，达摩院团队从优酷4亿个原始视频中挑选出了1000万个高质量的视频文本对。为确保视频的多样性，团队利用视频指纹识别技术去除重复视频。所有视频都经过分层多标签分类模型，被严格划分为20个一级类别和45个二级类别，如图2所示。Youku-mPLUG涵盖多个领域，各类别分布均匀。

为保证高质量，团队对视频和文本进行了严格的数据清洗。针对文本，要求视频标题长度在5到30个字之间，而且至少包含5个汉字，同时过滤明显的广告和无意义内容。对于视频质量和完整度，团队特别挑选了近期上传的视频，长度在10到120秒之间，以确保内容清晰完整。此外，还运用了中文图像文本预训练模型CLIP来过滤那些特征和图像特征相似度较低的视频。图3呈现了视频时长和标题长度的分布情况。

1.3 构造下游任务基准测评

论文使用视频文本检索、视频类别预测和视频描述生成三种类型的下游任务来评估模型在理解和生成方面的能力。表3总结了用于这三种任务的统计数据：

视频类别预测（Video Category Classification）

论文开始使用优酷的分类预估模型来给视频自动生成类别，但发现准确率只有94%，这个结果不太让人满意。因此论文开始使用人工标准的方法，在招聘到一批标记的员工后，首先要对标注员进行筛选，每个标注员会对100个视频进行打标，如果错误率达到2.5%就判定为不合格。在筛选到合适的标注员后，为了保证最高的准确率，又额外使用了三名标记员来复核每个视频的的标记结果。

视频描述生成（Video Captioning）

视频描述生成任务要求模型能够对视频片段的内容和标题生成一段简洁的描述。研究团队同样根据视频的类别分布随机抽取了大约8万个视频，并采用彩色直方图法将视频分割成多个镜头。为了能够准确理解和描述视频内容，研究团队还聘用了多个母语为汉语且受教育程度较高的标注员。每个标注员会被随机分配25个视频，并要求他们生成字幕，字幕包括视频的主题和对象，以及相关的动作和背景描述。字幕必须至少包含15个汉字。在预标注阶段结束，标注员会继续对数据进行标注，为了防止数据穿越，同一个视频的片段或者有相似标题的视频会专门分配到训练集或者测试集。此外，研究团队还招募了三个以上的标注员来标注视频片段，用来验证和测试视频的多样性和质量。

视频文本检索（Video-Text Retrieval）

论文从上述已经标注的视频字幕中选择部分子集作为视频文本检索任务的文本query。此外，视频的标题也会合并到文本query中以增强文本query的多样性。

2. mPLUG-video

2.1 模型结构

研究者提出了基于解码器的视频-语言模型mPLUG-video，如图4所示，模型由视频编码器、视觉摘要模块和语言解码器组成。由于预训练的大型语言模型在各种任务上表现出了令人难以置信的零样本和泛化能力，本文使用现成的中文大型语言模型（例如GPT-3）进行高效的模块化训练。此外，训练过程中冻结大语言模型，仅将视频编码器和视觉摘要模块留作可训练，从而大大减少了可训练参数，同时减轻了计算负担。

具体的，视频编码器使用了12层的TimeSformer。进一步，为了降低长视频序列的计算复杂度，论文引入了视觉抽取模块，它利用可学习的大小为M×D的query来减少视频序列的长度，其网络结构包括cross-attention 和 FFN。将预训练的大语言模型作为通用的文本解码器。此时需要将视频看成是外语（video-guidded language），然后将缩减后的视频序列与从文本embedding层获取的token特征concat起来输入到大语言模型中，最后这种视频引导的语言特征会预测输出下一个token。

2.2 预训练阶段-训练目标

论文用自回归的方式（auto-regressive）的方式训练mPLUG-video，训练任务为预测下一个词，即模型需要根据给定的视频补全文本，大语言模型的损失函数如下：

2.3 应用到下游任务阶段-训练目标

视频描述自动生成（Video Captioning）

视频描述生成是一种自回归任务。论文在对视频描述数据集进行微调的过程中，训练目标和与预训练目标保持一致。

视频类别预测（Video Category Classification）

视频分类预测任务也可以看成是视频描述生成任务，分类预测任务评估的是预估类别的准确率。

视频文本检索（Video-Text Retrieval）

与mPLUG-2 不同，mPLUG-video不能直接应用于检索任务。因此论文将视频-文本对输入到模型中并提取最后一个token的特征，然后通过对最后一个token应用一个额外的线性层来获取匹配的得分。mPLUG-2也是达摩院发布的图/文/视频通用的大模型。

3. 实验结果

3.1 下游任务基准测评

从表4中可以看到，在视频分类预估任务上mPLUG-video的准确率最高，且mPLUG-video(2.7B)的效果要好于mPLUG-video(1.3B)，这表明一个更大的大语言模型解码器能让效果更上一层楼。在视频描述生成任务上，mPLUG-video(2.7B)也取得了最好的效果，但实际在mPLUG数据集上，这些方法依然具有很大的挑战性。

从表5中可以看到在视频-文本检索任务上，mPLUG-video的效果却不如mPLUG-2，这是因为冻结语言模型的参数会影响mPLUG-video提取跨模态特征，这也表明论文发布的Youku-mPLUG 数据集确实能准确评估视频语言模型的建模能力。

3.2 在zero-shot视频指令理解上的人工评测

为了测试不同模型的视频指令理解能力，论文在50个随机采样的视频（45个来自Youku-mPLUG，5个来自HD-VILA-100M）上手动设置了65条指令并要求标注员对每个模型的响应结果进行打分，打分分为A、B、C、D四个等级，其中A表示“正确且令人满意”；B表示“有一些不完美，但可以接受”；C表示“理解了指令但是回复存在明显错误”；D表示“完全不相关或不正确的回复”。如图5所示，使用预训练的mPLUG-video模型在视频指令的响应效果上取得了最好的结果。

Reference

[1] A. Madasu, E. Aflalo, G. B. Stan, S.-Y. Tseng, G. Bertasius, and V. Lal. Improving video retrieval using multilingual knowledge transfer. In European Conference on Information Retrieval, 2022.
[2] X. Wang, J. Wu, J. Chen, L. Li, Y. Wang, and W. Y. Wang. Vatex: A large-scale, high-quality multilingual dataset for video-and-language research. In ICCV, 2019.
[3] H. Xu, Q. Ye, M. Yan, Y. Shi, J. Ye, Y. Xu, C. Li, B. Bi, Q. Qian, W. Wang, G. Xu, J. Zhang, S. Huang, F. Huang, and J. Zhou. mplug-2: A modularized multi-modal foundation model across text, image and video, In ICML, 2023.

END