《Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models》
CVPR2024,arxiv:2023.11
正如开篇之作Q-bench的limitations中作者写道,打算进一步扩展LLDescribe 和 LLVisionQA 数据集,以最终实现可靠的低级可视化指令调整过程,从而进一步提高 MLLM 的低级能力,本研究正是建立了一个指令微调数据集。
0摘要
本文建立了第一个由人类自然语言对低级视觉的反馈组成的数据集Q-pathway。每一个反馈都是对图像低级视觉属性的描述,最终形成一个整体的质量评估。(通过这个描述可以看出feedback由两部分组成:描述+整体质量评估)。Q-pathway数据集包括58K的反馈对应于18793张多源影像。进一步,建立了一个200k的指令数据集Q-instruct,将Q-pathway中的反馈通过GPT转换为不同的查询和响应对(instrcution-response pairs)。
1 介绍
Motivation:尽管已经证实了MLLMs是具有感知和理解图像低级视觉特性的能力,但是在相应这些关于底层视觉的问题时准确率没有很高,为了提升MLLMs对底层视觉感知的准确性,就势必需要一个关注底层视觉信息的大型指令微调数据集来提升大模型的底层视觉感知和评估的能力。
Q-instruct的构建步骤:
step1:Collect human feedbacQ-ks for low-level vision.这对应着Q-pathway的建立过程。让人类详细地描述图像的底层特性,包括blurs、noises、clarity、brightness、position、content等,然后需要基于这个描述