自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 图像质量评价与大模型——UniQA

(此前方法也关注到美学信息在判断图像质量的时候是一个重要的方面,但是大多都是将美学分支作为额外的角度补偿图像失真信息,例如DOVER,或者是将IQA和IAA作为两个不同的任务混合训练,使模型获得综合的图像感知能力,例如Q-ALIGN。作者提出的方法是基于预训练,建立一个联合的评估图像质量和美学的模型,考虑到现存的方法大多是拟合MOS分,而导致他们的模型对更大尺度的数据集有bias,所以作者想到提出用文本描述构建一座桥梁,利用文本固有的大量精细化的语义信息提供辅助信息进行质量评价。AIR是对二者的求和。

2024-09-10 15:37:02 907

原创 图像质量评价与大模型——Q系列(3)Q-ALIGN

基于摘要中所说的人类学习的过程,以及LLM倾向于对文字定义的level进行响应(Q-ben'ch中也发现直接打分会效果很差,但是输出poor和good的二分类效果好一些),因此作者提出了Q-ALIGN,在训练阶段,将MOS分转化为五等的文字输入,推理阶段,提取不同评级级别的对数概率,采用 SoftMax 池化来获得每个级别的概率,用五个等级概率加权值得到分数。而LLM是如何打分的呢?在IQA方法的介绍中出现了一个在Q-instruct中对比过的方法,LIQE,这是一个基于CLIP的多任务学习框架的方法。

2024-09-06 20:41:12 986

原创 图像质量评价与大模型——Q系列(2)Q-Instruct

一个是在公开数据集上的结果,另一个是在私有数据集上的结果。局限性与未来展望:①尽管质量评估和改进和低水平视觉感知能力,但 Q-Instruct 调整的模型在通用任务上的表现有所下降,尤其是以语言为中心的任务,或需要大量推理能力的任务。Motivation:尽管已经证实了MLLMs是具有感知和理解图像低级视觉特性的能力,但是在相应这些关于底层视觉的问题时准确率没有很高,为了提升MLLMs对底层视觉感知的准确性,就势必需要一个关注底层视觉信息的大型指令微调数据集来提升大模型的底层视觉感知和评估的能力。

2024-09-06 11:44:51 769

原创 图像质量评价与大模型——Q系列(1)Q-BENCH

(对应轴1的失真和轴2的全局)③图像中哪个区域比较亮(对应轴1的其他和轴2的局部)④图像中人脸的清晰度?该策略的提出基于一个思想:由于前面的提示词直接获得质量的方法可以得出,good和poor是MLLMs对质量的两种感知,这其实是MLLMs内部有关质量分数的tokens的二分类的结果,近似于argmax的激活函数。Low-level的视觉能力对图像质量评价尤为重要,因为它与感知视觉的失真(例如模糊和噪声),其他的图像底层特性(例如颜色、亮度、风格等),以及图像的美学特性和情绪等十分相关。

2024-09-05 22:06:55 664

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除