图像质量评价与大模型——Q系列(2)Q-Instruct

《Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models》

CVPR2024,arxiv:2023.11

正如开篇之作Q-bench的limitations中作者写道,打算进一步扩展LLDescribe 和 LLVisionQA 数据集,以最终实现可靠的低级可视化指令调整过程,从而进一步提高 MLLM 的低级能力,本研究正是建立了一个指令微调数据集。

0摘要

本文建立了第一个由人类自然语言对低级视觉的反馈组成的数据集Q-pathway。每一个反馈都是对图像低级视觉属性的描述,最终形成一个整体的质量评估。(通过这个描述可以看出feedback由两部分组成:描述+整体质量评估)。Q-pathway数据集包括58K的反馈对应于18793张多源影像。进一步,建立了一个200k的指令数据集Q-instruct,将Q-pathway中的反馈通过GPT转换为不同的查询和响应对(instrcution-response pairs)。

1 介绍

Motivation:尽管已经证实了MLLMs是具有感知和理解图像低级视觉特性的能力,但是在相应这些关于底层视觉的问题时准确率没有很高,为了提升MLLMs对底层视觉感知的准确性,就势必需要一个关注底层视觉信息的大型指令微调数据集来提升大模型的底层视觉感知和评估的能力。

Q-instruct的构建步骤:

step1:Collect human feedbacQ-ks for low-level vision.这对应着Q-pathway的建立过程。让人类详细地描述图像的底层特性,包括blurs、noises、clarity、brightness、position、content等,然后需要基于这个描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值