清华联合智谱发布CogCoM：训练视觉语言模型基于操纵链进行细节推理

PaperWeekly

于 2024-02-26 12:37:10 发布

阅读量651

点赞数 6

文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/136312181

版权

清华大学与智谱合作推出了多模态模型 CogCoM，它能进行细粒度的视觉推理，通过操纵链解决复杂视觉问题。模型借鉴人类解决问题的方式，通过一系列操纵图像进行推理，能处理细节识别、时间识别等任务。该研究还开源了相关代码和模型权重。

摘要由CSDN通过智能技术生成

2 月 6 日，清华联合智谱训练并发布了多模态大模型 CogCoM，一个可进行细粒度视觉推理的通用多模态大模型。该工作提出了一种视觉推理范式 —— 操纵链（Chain of Manipulations），使得训练后的视觉语言模型可以主动操纵处理图像以推理最终答案。

与人类解决复杂视觉问题相似，该工作训练视觉语言模型赋予其通过一系列操纵来解决视觉问题的能力，这些操纵或来源于前期的预训练（如 grounding），或来源于对人类行为的模仿（如 zoom in）。

通过大量分析，研究者发现大部分视觉问题的求解可以通过几类基本的操纵组合叠加来完成。因此，他们预定义了五类基本操纵，并允许模型在推理阶段自定义操纵以便求解。

这种可交互的视觉推理方式完全与纯语言思维链兼容。研究发现，视觉语言模型基于这种方式可以解决多个类别的视觉推理问题，包括：细节识别、时间识别、图表识别、物体个数计算以及文字识别等（如下图 1 所示）。

▲ 图1: CogCoM 解决多类视觉推理问题，包括细节识别、时间识别、图表识别、物体个数计算以及文字识别

为了促进社区的发展，该工作将模型代码、CogCoM-17B 多个版本的模型权重、推理链数据构造过程全部进行了开源。

论文地址：

https://arxiv.org/pdf/2402.04236.pdf

代码地址：

https://github.com/THUDM/CogCoM

模型地址：

https://huggingface.co/qijimrc/CogCoM

视觉推理

得益于大规模的预训练和基于文本指令问答的对齐训练，大规模视觉语

最低0.47元/天解锁文章

关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。