视频质量评价与大模型——VQA2

shyinnn

已于 2025-01-12 15:14:08 修改

阅读量1.3k

点赞数 18

文章标签：音视频人工智能算法

于 2025-01-12 15:12:38 首次发布

本文链接：https://blog.csdn.net/shyinnn/article/details/145093377

版权

前言：对于视频质量评价而言，基于LMM方法的探索还是处于一个比较初期的阶段，可能是因为有Q-AlLIGN这个珠玉在前，所以凭借着对图像质量的视觉感知就已经可以对视频质量进行准确的打分了，但是显然这种图像质量模型缺失了对视频时间信息和运动失真的表征，缺乏这一特征无疑是会影响准确率的，因此，本篇文章就建立了一个视频质量的指令微调数据集，并且基于LLaVA-OneVision-Chat-7B微调得到了一个在VQA中性能超过了Q-ALIGN的大模型。

《VQA2: Visual Question Answering for Video Quality Assessment》

0.摘要

大型多模态模型（LMM）的出现和扩散为计算机视觉引入了新的范式，将各种任务转变为统一的视觉问答框架，视觉问答（VQA）可以显着增强低水平的视觉质量评估。引入了 VQA2 指令数据集——第一个专注于视频质量评估的视觉问答指令数据集。该数据集由 3 个子集组成，涵盖各种视频类型，包含 157、755 个指令问答对。然后，利用这个基础，我们推出了VQA2系列模型。

我们的最终模型 VQA2-Assistant 在视觉质量理解任务中超越了著名的 GPT-4o。VQA2-Assistant可以进行精确的视频质量评分，同时展现出强大的视频质量理解和问答能力，标志着该领域的新进展。