AI多模态论文解读：LLaVA-CoT：让视觉语言模型逐步推理

AIGCmagic社区

于 2025-01-10 18:24:49 发布

阅读量1.5k

点赞数 9

分类专栏： AI多模态文章标签：人工智能语言模型深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AIGCmagic/article/details/145063471

版权

本文作者：AIGCmagic社区猫先生

一、简介

LLaVA-CoT引入了四个不同的阶段（摘要、标题、推理和结论），使模型能够独立进行系统化的多阶段推理，显著提高了在推理密集型任务上的准确性。

编译了LLaVA-CoT-100k数据集，整合了来自各种视觉问答来源的样本，并提供了结构化的推理注释，为训练提供了丰富的数据支持。

提出一种新的推理时阶段级束搜索方法，能够在每个阶段生成多个候选结果并选择最佳结果继续生成过程，实现了有效的推理时扩展。

通过监督微调，LLaVA-CoT不仅在广泛的推理基准上超越了其基础模型，还超过了更大且闭源的模型，如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。

图1. LLaVA-CoT和其他模型在六个多模态推理基准测试中的性能。尽管LLaVA-CoT是从Llama-3.2-11B-Vision-Instruct模型中微调而来的（该模型的平均分数最低），但它胜过了许多更大的开源模型，甚至一些闭源模型

二、引言

大语言模型在推理能力上取得了显著进步，特别是在推理时间扩展方面，如OpenAI的o1所示。然而，当前的视觉语言模型（VLMs）往往难以进行系统和结构化的推理，尤其是在处理复杂的视觉问答任务时。

本文要解决的问题是如何提升视觉语言模型（VLMs）在处理复杂视觉问答任务时的系统性结构化推理能力。

现有的VLMs在推理过程中缺乏系统性和结构性，导致在复杂推理任务中频繁出现错误和幻觉输出；如何有效地进行推理时间扩展，以应对更复杂的任务和场景。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。