清华联合智谱发布CogCoM:训练视觉语言模型基于操纵链进行细节推理

清华大学与智谱合作推出了多模态模型 CogCoM,它能进行细粒度的视觉推理,通过操纵链解决复杂视觉问题。模型借鉴人类解决问题的方式,通过一系列操纵图像进行推理,能处理细节识别、时间识别等任务。该研究还开源了相关代码和模型权重。
摘要由CSDN通过智能技术生成

9f1517546b9934c1a6ed79667a52104f.gif

4fea27e46f6fb255ac4dbf4248464a8c.png

2 月 6 日,清华联合智谱训练并发布了多模态大模型 CogCoM, 一个可进行细粒度视觉推理的通用多模态大模型。该工作提出了一种视觉推理范式 —— 操纵链(Chain of Manipulations), 使得训练后的视觉语言模型可以主动操纵处理图像以推理最终答案。

与人类解决复杂视觉问题相似,该工作训练视觉语言模型赋予其通过一系列操纵来解决视觉问题的能力,这些操纵或来源于前期的预训练(如 grounding),或来源于对人类行为的模仿(如 zoom in)。

通过大量分析,研究者发现大部分视觉问题的求解可以通过几类基本的操纵组合叠加来完成。因此,他们预定义了五类基本操纵,并允许模型在推理阶段自定义操纵以便求解。

这种可交互的视觉推理方式完全与纯语言思维链兼容。研究发现,视觉语言模型基于这种方式可以解决多个类别的视觉推理问题,包括:细节识别、时间识别、图表识别、物体个数计算以及文字识别等(如下图 1 所示)。

50a6f0420baf903d9363fc80880dcc28.png

▲ 图1: CogCoM 解决多类视觉推理问题,包括细节识别、时间识别、图表识别、物体个数计算以及文字识别

为了促进社区的发展,该工作将模型代码、CogCoM-17B 多个版本的模型权重、推理链数据构造过程全部进行了开源。

f82766804e1535950776826f365cf588.png

论文地址:

https://arxiv.org/pdf/2402.04236.pdf

代码地址:

https://github.com/THUDM/CogCoM

模型地址:

https://huggingface.co/qijimrc/CogCoM

fef353198d3826d32eaf21b0c478c5fd.png

视觉推理

得益于大规模的预训练和基于文本指令问答的对齐训练,大规模视觉语

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值