shyinnn-CSDN博客

原创图像质量评价与大模型——IQAGPT

1.摘要医学CT的质量评估。1000个经过专业标注的CT切片，使用提示模板将带注释的质量分数转换为文本描述。在CT-IQA数据集上微调VLM生成质量描述。用户可以和GPT对话来评估图像质量分数或者放射质量报告。2.介绍比较初级的面向自然图像的基于VLM的方法，有CLIPIQA，但是它只能使用一种prompt，不足以支持复杂的医学图像。特别是需要评估小的病变或者诊断的情况下，医学影像质量检查十分灵活。

2025-01-12 15:22:32 1014

原创视频质量评价与大模型——VQA2

大型多模态模型（LMM）的出现和扩散为计算机视觉引入了新的范式，将各种任务转变为统一的视觉问答框架，视觉问答（VQA）可以显着增强低水平的视觉质量评估。前言：对于视频质量评价而言，基于LMM方法的探索还是处于一个比较初期的阶段，可能是因为有Q-AlLIGN这个珠玉在前，所以凭借着对图像质量的视觉感知就已经可以对视频质量进行准确的打分了，但是显然这种图像质量模型缺失了对视频时间信息和运动失真的表征，缺乏这一特征无疑是会影响准确率的，因此，本篇文章就建立了一个视频质量的指令微调数据集。

2025-01-12 15:12:38 1418

原创图像质量评价与大模型——UniQA

（此前方法也关注到美学信息在判断图像质量的时候是一个重要的方面，但是大多都是将美学分支作为额外的角度补偿图像失真信息，例如DOVER，或者是将IQA和IAA作为两个不同的任务混合训练，使模型获得综合的图像感知能力，例如Q-ALIGN。作者提出的方法是基于预训练，建立一个联合的评估图像质量和美学的模型，考虑到现存的方法大多是拟合MOS分，而导致他们的模型对更大尺度的数据集有bias，所以作者想到提出用文本描述构建一座桥梁，利用文本固有的大量精细化的语义信息提供辅助信息进行质量评价。AIR是对二者的求和。

2024-09-10 15:37:02 1717

原创图像质量评价与大模型——Q系列（3）Q-ALIGN

基于摘要中所说的人类学习的过程，以及LLM倾向于对文字定义的level进行响应（Q-ben'ch中也发现直接打分会效果很差，但是输出poor和good的二分类效果好一些），因此作者提出了Q-ALIGN，在训练阶段，将MOS分转化为五等的文字输入，推理阶段，提取不同评级级别的对数概率，采用 SoftMax 池化来获得每个级别的概率，用五个等级概率加权值得到分数。而LLM是如何打分的呢？在IQA方法的介绍中出现了一个在Q-instruct中对比过的方法，LIQE，这是一个基于CLIP的多任务学习框架的方法。

2024-09-06 20:41:12 2179

原创图像质量评价与大模型——Q系列（2）Q-Instruct

一个是在公开数据集上的结果，另一个是在私有数据集上的结果。局限性与未来展望：①尽管质量评估和改进和低水平视觉感知能力，但 Q-Instruct 调整的模型在通用任务上的表现有所下降，尤其是以语言为中心的任务，或需要大量推理能力的任务。Motivation：尽管已经证实了MLLMs是具有感知和理解图像低级视觉特性的能力，但是在相应这些关于底层视觉的问题时准确率没有很高，为了提升MLLMs对底层视觉感知的准确性，就势必需要一个关注底层视觉信息的大型指令微调数据集来提升大模型的底层视觉感知和评估的能力。

2024-09-06 11:44:51 1150

原创图像质量评价与大模型——Q系列（1）Q-BENCH

（对应轴1的失真和轴2的全局）③图像中哪个区域比较亮（对应轴1的其他和轴2的局部）④图像中人脸的清晰度？该策略的提出基于一个思想：由于前面的提示词直接获得质量的方法可以得出，good和poor是MLLMs对质量的两种感知，这其实是MLLMs内部有关质量分数的tokens的二分类的结果，近似于argmax的激活函数。Low-level的视觉能力对图像质量评价尤为重要，因为它与感知视觉的失真（例如模糊和噪声），其他的图像底层特性（例如颜色、亮度、风格等），以及图像的美学特性和情绪等十分相关。

2024-09-05 22:06:55 1451 1