图像质量评价与大模型——Q系列(3)Q-ALIGN

《Q-ALIGN: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels》

CVPR2024,arxiv2023.12

本文中的方法在2024年的AIS2024 和NTIRE2024的视频质量评价比赛中发挥了巨大的作用,在workshop的集合论文中随便翻翻,发现很多排名靠前的方法都有Q-ALIGN的身影。而且,在比赛中大家常常采用的将多种方法得分求均值的策略也在本文的实验中出现并验证了它的效果。这样一个强大的方法,它的思想其实非常简单,就是从人类主观实验的步骤出发,让大模型按照人的模式学习,而不是像传统机器学习一样直接预测分数。

另外,Q-ALIFGN其实并不是Q-BENCH和Q-instruct的承接,前两个是对现有的通用大模型的一个评估和提升低级视觉感知能力,Q-instruct微调过的模型仍然是可以做general任务的,但是Q-ALIGN只是对IAA、IQA和VQA任务进行了训练。

 0 摘要

观察到人类评分指学习和判断离散地文本定义的rating levels,而不是分数(这里是指在主观实验的时候,被试通常会经过训练阶段,训练阶段被试被要求对图像打分,打分虽然是五分制,但是被试只能看到分数对应的文本例如可以接受、轻微讨厌这种离散文本)。作者建议模拟这个过程,用文本定义的rating level来教授LLM。本研究将IQA、美学评估IAA和VQA三个任务统一为一个模型。

1 介绍

现有的基于深度学习的IQA方法在特定数据集上回归MOS取得了较高的准确性,但是影像分数的复杂因素导致他们在out-of-distribution的数据上泛化性较差。MLLM具有强大的reasoning的能力,而且雄厚的背景知识使得它们在广泛数据上泛化性能良好,只是当前在预测MOS上还达不到要求。

本研究即完成了MLLM预测图像分数的最后一英里:

How to teach LMMs to predict scores aligned with human?

基于摘要中所说的人类学习的过程,以及LLM倾向于对文字定义的level进行响应(Q-ben'ch中也发现直接打分会效果很差,但是输出poor和good的二分类效果好一些),因此作者提出了Q-ALIGN,在训练阶段,将MOS分转化为五等的文字输入,推理阶段,提取不同评级级别的对数概率,采用 SoftMax 池化来获得每个级别的概率,用五个等级概率加权值得到分数。

模型的效果非常优异,Q-ALIGN不仅在12个三种任务的数据集上取得了sota,而且有两个特性:①高效性。只需要IQA数据的1/5训练就可以达到sota。②多种数据集联合时候非常方便(因为对所有数据都转换成了一致的五等制)。

2 相关工作

在IQA方法的介绍中出现了一个在Q-instruct中对比过的方法,LIQE,这是一个基于CLIP的多任务学习框架的方法。

在此之前的VQA方法,本文作者Haoning Wu也有过基于CLIP的尝试,但是效果不如专门的VQA。

3 The Q-ALIGN

3.1. Methodology

1)训练阶段:

本节首先回顾了前文说的人类打分过程,不再赘述。而LLM是如何打分的呢?作者对几个LMM进行live数据集rate quality的输出进行统计,发现几乎全部是形容词而非数字。

然后作者研究了如何将现有数据集的分数转化为discrete rating level。考虑到从人类打分的等级转化成score是等距的,因此这里将MOS转成rating level也是等距的。转化过程如下所示:

转换后的五分制和原来gt的相关性为:

2)推理阶段:从模型输出转回到分数的过程。因为softmax激活函数可以使得概率和为1,所以这里用softmax,最终score是五等分数的加权和。

3)模型架构:采用了mPLUG-Owl2(可能是因为这模型的LLM用了LLaMA2,context length是2048,能够同时输入30张图片,使得视频也能作为图像序列输入到LMM中。Q-ALIGN使用常见的GPT损失,即交叉熵损失。

4)conversation formats:

4 实验

4.1 数据集:IQA训练数据集是KonIQ-10k (in-the-wild), SPAQ (11K, in-the-wild)and KADID-10k (synthetic),测试集是这三个+另外四个。VQA训练数据集市LSVQ,测试即是LSVQ、KoNViD-1k and MaxWell。

4.2 实验结果

IQA:先比较在单个数据集上训练模型的常规设置,Q-ALIGN 可以明显实现比所有纯视觉方法更好的准确性。FEWSHOT-Q-ALIGN,只需在数据集中使用 20% 的图像,就可以达到与现有最先进的 IQA 方法相当的性能。

进一步评估了mixdata 场景,Q-ALIGN 能够在混合数据集时保持或提高单个数据集的准确性。

VQA:采样为1fps。它表现出出色的 OOD 泛化性,在从 LSVQtrain 到 MaxWelltest 数据集的跨数据集评估中比 FASTVQA 高出 6%。Q-ALIGN 和 FAST-VQA 的集成证明,在所有四个评估数据集上都比 DOVER 高出 1% 以上。(这里证明Q-ALIGN和其他优秀方法求均值的结果能给其他方法和Q-ALIGN本身带来增益)

 4.3 cost分析:只需要2个epoch就能达到最佳结果。

4.4 速度分析:在3090上,图像23fps,5秒的视频4.2个。(不仅仅是oi写的好,而且可能输入输入尺寸448,以及abstrctor将图像embedding降维到64都起到了简化计算的作用?)

4.5 消融实验:比较了Q-align与直接用分数指令微调过的LLM的最佳效果。发现用分数微调的LLM失真不如sota的iqa传统方法。

4.6 定性分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值