前言:对于视频质量评价而言,基于LMM方法的探索还是处于一个比较初期的阶段,可能是因为有Q-AlLIGN这个珠玉在前,所以凭借着对图像质量的视觉感知就已经可以对视频质量进行准确的打分了,但是显然这种图像质量模型缺失了对视频时间信息和运动失真的表征,缺乏这一特征无疑是会影响准确率的,因此,本篇文章就建立了一个视频质量的指令微调数据集,并且基于LLaVA-OneVision-Chat-7B微调得到了一个在VQA中性能超过了Q-ALIGN的大模型。
《VQA2: Visual Question Answering for Video Quality Assessment》
0.摘要
大型多模态模型(LMM)的出现和扩散为计算机视觉引入了新的范式,将各种任务转变为统一的视觉问答框架,视觉问答(VQA)可以显着增强低水平的视觉质量评估。引入了 VQA2 指令数据集——第一个专注于视频质量评估的视觉问答指令数据集。该数据集由 3 个子集组成,涵盖各种视频类型,包含 157、755 个指令问答对。然后,利用这个基础,我们推出了VQA2系列模型。
我们的最终模型 VQA2-Assistant 在视觉质量理解任务中超越了著名的 GPT-4o。VQA2-Assistant可以进行精确的视频质量评分,同时展现出强大的视频质量理解和问答能力,标志着该领域的新进展。
- 介绍
我们相信,与传统模型相比,将视觉问答集成到开发视频质量评估模型中可以提供卓越的定量评估和质量理解能力,从而具有更大的广泛应用潜力。该模型可用于视频编码、传输和解码过程[23],提供有效的反馈。此外,它在图像/视频生成领域有望作为细化本地生成细节的有效指导[27]。
我们构建了 VQA2 指令数据集——一个专门用于基于视觉问答的视频质量评估的大规模指令数据集。该数据集为开发具有卓越多功能性的强大视频质量评估模型奠定了坚实的基础。构建流程可分为 3 个阶段及其相应的子集
第一阶段:以模型预训练的失真识别为中心的子集。我们利用来自多个现有数据集的失真信息,开发了用于模型预训练的失真识别指令子集。 •
第2 阶段:以视频质量评分为中心的指令调整子集。我们利用各种现有数据集的平均意见得分(MOS)并将其转换为质量级别标签作为指导数据。
• 第3 阶段:用于理解视频质量的指令调整子集。我们根据人类专家注释整理了由 GPT 扩展的高质量、多样化的数据集
3. 数据集