《Q-BENCH: A BENCHMARK FOR GENERAL-PURPOSE FOUNDATION MODELS ON LOW-LEVEL VISION》
ICLR2024,arxiv2023.09
通用大模型在其他领域的卓越能力已被证明的情况下,MLLMs对于low-level的视觉感知和理解能力如何呢?本研究首次验证了MLLMs在图像质量评价领域应用的能力,也为后面作者的Q系列奠定了坚实的基础。通过Q-bench,Q-intstruct,再到强大的Q-Align,Haoning Wu循序渐进地构建了图像质量评价领域的MLLM。
0 摘要:
- bench通过三个方面评估MLLMs的low-level视觉感知能力:low-level visual perception、low-level visual description 和overall visual quality assessment。对于low-level perception:建立了LLVisionQA数据集,包含2990张不同源的图像,每张图像配备了关注low-level特性的0人工问题。对于low-level description:提出了LLDescribe数据集,包含对于499张图像的long expert-labelled golden low-level text descriptions。对于visual quality:则是和传统给图像质量评价一样的图像人类得分数据集,这里尤为关键的是提出了一个基于soft-max的策略,使得MLLM可以预测出可量化的分数。虽然仅仅是一个简单的softmax,但就是通过这个策略,衍生出来了Q-Align。
1 介绍:
Low-level的视觉能力对图像质量评价尤为重要,因为它与感知视觉的失真(例如模糊和噪声),其他的图像底层特性(例如颜色、亮度、风格等),以及图像的美学特性和情绪等十分相关。作者提出了关于benchmark的一个关键问题:
How do MLLMs emulate human ability related to low-level visual perception and understanding?
答案很简单,是language。
然后定义了两种MLLMs的语言能力:
- Perception of Low-level Attributes,这是指能回答关于清晰度、亮度等的简单问题。
- Description via Natural Language,这是指可以对图像的质量进行准确描述。
对于perception能力,作者建立了LLVisionQA dataset,每张图片有一个问题,一个正确答案和一个错误答案。设计了三种问题:Yes-or-No questions, What questions, and How questions.底层视觉问题包含两种维度四个象限:(1) distortions (blur, noises, etc) vs other low-level attributes (color, lighting, composition, etc)(2) global perception(e.g., sharpness of the whole picture) vs local content-related in-context perception (e.g., whether the red flower is in focus)。
对于description能力,作者建立了LLDescribe dataset,邀请了专家编写golden descriptions(average 58 words),GPT通过三个维度评估描述:completeness, preciseness,relevance。
对于传统IQA任务,提取了两个最频繁的tokens(good和poor)的logit的siftmax的池化结果作为质量预测,将MLLMs的图像理解转化为得分。
2 Q-Bench的建立:
2.1 基本原则:①专注底层视觉能力,不需要推理(reasonin)或者其他外部知识。②low-level现象的多样性。采样来源覆盖多种任务、多种场景、多种数据收集设备,此外还对低级属性指标进行了据类来保证多样性。
2.2 BENCHMARK ON LOW-LEVEL PERCEPTION ABILITY
作者在这里提出了两个轴,轴1是失真vs其他视觉属性,轴2是全局感知vs局部感知。这是指:在构建感知数据集的时候,question会从多个角度关注图像的失真或者其他视觉特征,例如对一张图像:可能会询问:图像的整体亮度?(对应轴1的其他和轴2的全局)②图像中是否有模糊?(对应轴1的失真和轴2的全局)③图像中哪个区域比较亮(对应轴1的其他和轴2的局部)④图像中人脸的清晰度?(对应轴1的失真和轴2的局部)
三种问题类型前面已经说过,不再赘述,涵盖了失真类型、图像语义、失真程度等图像质量以及单纯的图像理解的内容。
对MLLMs评估的策略:
采用5-ound GPT-assisted评估策略。即让gpt对MLLMs输出的答案进行重复的五次判断并投票。
2.3 BENCHMARK ON LOW-LEVEL DESCRIPTION ABILITY
LLDescrib dataset前面已经基本介绍过,这里不再赘述。
评估策略:EVALUATION WITH SINGLE-MODAL GPT
单模态GPT是一个可靠的评估纯语言任务的工具。通过用单模态的GPT对MLLMs的描述和golden descrptions进行对比打分,从Completeness、Preciseness、Relevance三个角度,每个角度打分范围是[0,1,2],每一次评估是5-round然后求均值。
2.4 BENCHMARK ON PRECISE QUALITY ASSESSMENT ABILITY
2.4.1 简单的评估方法:首先在Shikra和LLAVA-v1上测试了两种直接指令的方法。
①提示词:“Rate the quality of the image”,频率最高的答案分别是good和poor。
②“Score the quality of the image from 1 to 5, with 1 as lowest and 5 as highest.”.结果答案非常极端,5占84%,而且几乎没有2和4,这表示MLLMs不能直接评级打分。
2.4.2 A SOFTMAX-BASED EVALUATION STRATEGY
该策略的提出基于一个思想:由于前面的提示词直接获得质量的方法可以得出,good和poor是MLLMs对质量的两种感知,这其实是MLLMs内部有关质量分数的tokens的二分类的结果,近似于argmax的激活函数。修订后使用了softmax激活函数:
伪代码:
3 结果
3.1 RESULTS AND OBSERVATIONS ON PERCEPTION
数据集被分成了两个子集,一个可以发布,一个私有。考虑到所有参与的 MLLM 都没有对低级视觉属性进行任何明确的训练,这些结果显示了这些通用模型在使用各自的低级数据集进一步微调时具有强大的潜力。一个关键观察结果是,几乎所有方法对失真的感知都比其他低级属性差。InternLM-XComposer-VL 达到最佳精度。
3.2 RESULTS AND OBSERVATIONS ON DESCRIPTION
目前所有的 MLLM 都只是具有相对有限和主要的能力来提供低级视觉描述。
3.3 RESULTS AND OBSERVATIONS ON ASSESSMENT
在没有训练的情况下,有部分MLLMs超过了IQA方法NIQE。 InternLM-XComposer-VL的性能不错。
这里对CLIP-VIT-large-14预测得分的方法:
此外,作者还使用了集成词的方法来计算得分,整体的准确率也获得一定提升。
局限性和未来展望:①descrption的正确性评估存在主观差异,未来需要更可靠的方法。②打算进一步扩展LLDescribe 和 LLVisionQA 数据集,以最终实现可靠的低级可视化指令调整过程,从而进一步提高 MLLM 的低级能力。