2 月 6 日,清华联合智谱训练并发布了多模态大模型 CogCoM, 一个可进行细粒度视觉推理的通用多模态大模型。该工作提出了一种视觉推理范式 —— 操纵链(Chain of Manipulations), 使得训练后的视觉语言模型可以主动操纵处理图像以推理最终答案。
与人类解决复杂视觉问题相似,该工作训练视觉语言模型赋予其通过一系列操纵来解决视觉问题的能力,这些操纵或来源于前期的预训练(如 grounding),或来源于对人类行为的模仿(如 zoom in)。
通过大量分析,研究者发现大部分视觉问题的求解可以通过几类基本的操纵组合叠加来完成。因此,他们预定义了五类基本操纵,并允许模型在推理阶段自定义操纵以便求解。
这种可交互的视觉推理方式完全与纯语言思维链兼容。研究发现,视觉语言模型基于这种方式可以解决多个类别的视觉推理问题,包括:细节识别、时间识别、图表识别、物体个数计算以及文字识别等(如下图 1 所示)。
▲ 图1: CogCoM 解决多类视觉推理问题,包括细节识别、时间识别、图表识别、物体个数计算以及文字识别
为了促进社区的发展,该工作将模型代码、CogCoM-17B 多个版本的模型权重、推理链数据构造过程全部进行了开源。
论文地址:
https://arxiv.org/pdf/2402.04236.pdf
代码地址:
https://github.com/THUDM/CogCoM
模型地址:
https://huggingface.co/qijimrc/CogCoM
视觉推理
得益于大规模的预训练和基于文本指令问答的对齐训练,大规模视觉语