图像质量评价与大模型——Q系列(1)Q-BENCH

《Q-BENCH: A BENCHMARK FOR GENERAL-PURPOSE FOUNDATION MODELS ON LOW-LEVEL VISION》

ICLR2024,arxiv2023.09

通用大模型在其他领域的卓越能力已被证明的情况下,MLLMs对于low-level的视觉感知和理解能力如何呢?本研究首次验证了MLLMs在图像质量评价领域应用的能力,也为后面作者的Q系列奠定了坚实的基础。通过Q-bench,Q-intstruct,再到强大的Q-Align,Haoning Wu循序渐进地构建了图像质量评价领域的MLLM。

0 摘要:

  1. bench通过三个方面评估MLLMs的low-level视觉感知能力:low-level visual perception、low-level visual description 和overall visual quality assessment。对于low-level perception:建立了LLVisionQA数据集,包含2990张不同源的图像,每张图像配备了关注low-level特性的0人工问题。对于low-level description:提出了LLDescribe数据集,包含对于499张图像的long expert-labelled golden low-level text descriptions。对于visual quality:则是和传统给图像质量评价一样的图像人类得分数据集,这里尤为关键的是提出了一个基于soft-max的策略,使得MLLM可以预测出可量化的分数。虽然仅仅是一个简单的softmax,但就是通过这个策略,衍生出来了Q-Align。

1 介绍:

Low-level的视觉能力对图像质量评价尤为重要,因为它与感知视觉的失真(例如模糊和噪声),其他的图像底层特性(例如颜色、亮度、风格等),以及图像的美学特性和情绪等十分相关。作者提出了关于benchmark的一个关键问题:

How do MLLMs emulate human ability related to low-level visual perception and understanding?

答案很简单,是language。

然后定义了两种MLLMs的语言能力:

  1. Perception of Low-level Attributes,这是指能回答关于清晰度、亮度等的简单问题。
  2. Description via Natural Language,这是指可以对图像的质量进行准确描述。

对于perception能力,作者建立了LLVisionQA dataset,每张图片有一个问题,一个正确答案和一个错误答案。设计了三种问题:Yes-or-No questions, What questions, and How questions.底层视觉问题包含两种维度四个象限:(1) distortions (blur, noises, etc) vs other low-level attributes (color, lighting, composition, etc)(2) global perception(e.g., sharpness of the whole picture) vs local content-related in-context perception (e.g., whether the red flower is in focus)。

对于description能力,作者建立了LLDescribe dataset,邀请了专家编写golden descriptions(average 58 words),GPT通过三个维度评估描述:completeness, preciseness,relevance。

对于传统IQA任务,提取了两个最频繁的tokens(good和poor)的logit的siftmax的池化结果作为质量预测,将MLLMs的图像理解转化为得分。

2 Q-Bench的建立:

2.1 基本原则:①专注底层视觉能力,不需要推理(reasonin)或者其他外部知识。②low-level现象的多样性。采样来源覆盖多种任务、多种场景、多种数据收集设备,此外还对低级属性指标进行了据类来保证多样性。

2.2 BENCHMARK ON LOW-LEVEL PERCEPTION ABILITY

作者在这里提出了两个轴,轴1是失真vs其他视觉属性,轴2是全局感知vs局部感知。这是指:在构建感知数据集的时候,question会从多个角度关注图像的失真或者其他视觉特征,例如对一张图像:可能会询问:图像的整体亮度?(对应轴1的其他和轴2的全局)②图像中是否有模糊?(对应轴1的失真和轴2的全局)③图像中哪个区域比较亮(对应轴1的其他和轴2的局部)④图像中人脸的清晰度?(对应轴1的失真和轴2的局部)

三种问题类型前面已经说过,不再赘述,涵盖了失真类型、图像语义、失真程度等图像质量以及单纯的图像理解的内容。

对MLLMs评估的策略:

采用5-ound GPT-assisted评估策略。即让gpt对MLLMs输出的答案进行重复的五次判断并投票。

2.3 BENCHMARK ON LOW-LEVEL DESCRIPTION ABILITY

LLDescrib dataset前面已经基本介绍过,这里不再赘述。

评估策略:EVALUATION WITH SINGLE-MODAL GPT

单模态GPT是一个可靠的评估纯语言任务的工具。通过用单模态的GPT对MLLMs的描述和golden descrptions进行对比打分,从Completeness、Preciseness、Relevance三个角度,每个角度打分范围是[0,1,2],每一次评估是5-round然后求均值。

2.4 BENCHMARK ON PRECISE QUALITY ASSESSMENT ABILITY

2.4.1 简单的评估方法:首先在Shikra和LLAVA-v1上测试了两种直接指令的方法。

①提示词:“Rate the quality of the image”,频率最高的答案分别是good和poor。

②“Score the quality of the image from 1 to 5, with 1 as lowest and 5 as highest.”.结果答案非常极端,5占84%,而且几乎没有2和4,这表示MLLMs不能直接评级打分。

2.4.2 A SOFTMAX-BASED EVALUATION STRATEGY

该策略的提出基于一个思想:由于前面的提示词直接获得质量的方法可以得出,good和poor是MLLMs对质量的两种感知,这其实是MLLMs内部有关质量分数的tokens的二分类的结果,近似于argmax的激活函数。修订后使用了softmax激活函数:

伪代码:

3 结果

3.1 RESULTS AND OBSERVATIONS ON PERCEPTION

数据集被分成了两个子集,一个可以发布,一个私有。考虑到所有参与的 MLLM 都没有对低级视觉属性进行任何明确的训练,这些结果显示了这些通用模型在使用各自的低级数据集进一步微调时具有强大的潜力。一个关键观察结果是,几乎所有方法对失真的感知都比其他低级属性差。InternLM-XComposer-VL 达到最佳精度。

3.2 RESULTS AND OBSERVATIONS ON DESCRIPTION

目前所有的 MLLM 都只是具有相对有限和主要的能力来提供低级视觉描述。

3.3 RESULTS AND OBSERVATIONS ON ASSESSMENT

在没有训练的情况下,有部分MLLMs超过了IQA方法NIQE。 InternLM-XComposer-VL的性能不错。

这里对CLIP-VIT-large-14预测得分的方法:

此外,作者还使用了集成词的方法来计算得分,整体的准确率也获得一定提升。

局限性和未来展望:①descrption的正确性评估存在主观差异,未来需要更可靠的方法。②打算进一步扩展LLDescribe 和 LLVisionQA 数据集,以最终实现可靠的低级可视化指令调整过程,从而进一步提高 MLLM 的低级能力。

目 录 第一章 引言 1 1.1 图像质量评价的定义 1 1.2 研究对象 1 1.3 方法分类 2 1.4 研究意义 3 第二章 历史发展和研究现状 4 2.1 基于手工特征提取的图像质量评价 4 2.1.1 基于可视误差的“自底向上”模型 4 2.1.1.1 Daly模型 4 2.1.1.2 Watson’s DCT模型 5 2.1.1.3 存在的问题 5 2.1.2 基于HVS的“自顶向下”模型 5 2.1.2.1 结构相似性方法 6 2.1.2.2 信息论方法 8 2.1.2.3 存在的问题 9 2.2 基于深度学习的图像质量评价 10 2.2.1 CNN模型 10 2.2.2 多任务CNN模型 12 2.2.3 研究重点 15 第三章 图像质量评价数据集和性能指标 16 3.1 图像质量评价数据集简介 16 3.2 图像质量评价模型性能指标 17 第四章 总结与展望 19 4.1 归纳总结 19 4.2 未来展望 19 参考文献 21 第一章 引言 随着现代科技的发展,诸如智能手机,平板电脑和数码相机之类的消费电子产品快速普及,已经产生了大量的数字图像。作为一种更自然的交流方式,图像中的信息相较于文本更加丰富。信息化时代的到来使图像实现了无障碍传输,图像在现代社会工商业的应用越来越广泛和深入,是人们生活中最基本的信息传播手段,也是机器学习的重要信息源。 图像质量图像系统的核心价值,此外,它也是图像系统技术水平的最高层次。但是,对图像的有损压缩、采集和传输等过程会很容易导致图像质量下降的问题。例如:在拍摄图像过程中,机械系统的抖动、光学系统的聚焦模糊以及电子系统的热噪声等都会造成图像不够清晰;在图像存储和传输过程中,由于庞大的数据量和有限通讯带宽的矛盾,图像需要进行有损压缩编码,这也会导致振铃效应、模糊效应和块效应等图像退化现象的出现。所以,可以说图像降质在图像系统的各个层面都会很频繁地出现,对图像质量作出相应的客观评价是十分重要且有意义的。为了满足用户在各种应用中对图像质量的要求,也便于开发者们维持、控制和强化图像质量图像质量评价(Image Quality Assessment,IQA)是一种对图像所受到的质量退化进行辨识和量化的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值