超越GPT-4o-mini | 北大开源「国产o1」大模型，{多阶段自主推理}让小模型也能“放大招“！

技术挖掘者

于 2024-11-18 22:40:31 发布

阅读量1k

点赞数 6

分类专栏： AIGC 大语言模型 LLaVA-o1 文章标签： AIGC 大语言模型 LLaVA-o1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WZZ18191171661/article/details/143868759

版权

01、LLaVA-o1背景简介

在这里插入图片描述
以OpenAI o1为代表的大型语言模型展示了强大的推理能力，这充分的验证了语言模型推理时间缩放的有效性。然而，视觉对于使模型能够充分理解世界并扩展其认知能力同等重要。因此，开发一个融合语言和视觉的多模态模型，同时促进其有效、系统和深入的推理，具有重要意义。
早期的开源视觉语言模型（VLM）主要采用直接预测方法，在回答问题时立即生成简短的答案。这种直接反应范式的主要局限性在于它缺乏结构化的推理过程，这使得它对需要逻辑推理的任务效率较低。近期的研究表明，结合思维链（CoT）推理可以鼓励模型逐步推理，显著提高其问答能力。然而，即使使用CoT推理，大多数VLM在推理过程中也经常产生错误或幻觉输出。
大量的研究结果表明，这些问题的一个重要原因是现有VLM中推理过程的系统性和结构化不足。具体来说，通过引用系统，该模型不生成直接的推理链，而是参与多阶段推理。另一方面，结构化是指模型能够清楚地识别它所处的推理阶段，并理解每个阶段要解决的主要任务。作者观察到，VLM经常在没有充分组织问题和可用信息的情况下发起响应。此外，它们经常偏离对结论的逻辑推理，而不是过早地提出结论并随后试图证明其合理性。鉴于语言模型会逐一生成响应，一旦引入错误的结论，模型通常会沿着有缺陷的推理路径继续。

02、LLaVA-o1算法简介

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。