01、LLaVA-o1背景简介
以OpenAI o1为代表的大型语言模型展示了强大的推理能力,这充分的验证了语言模型推理时间缩放的有效性。然而,视觉对于使模型能够充分理解世界并扩展其认知能力同等重要。因此,开发一个融合语言和视觉的多模态模型,同时促进其有效、系统和深入的推理,具有重要意义。
早期的开源视觉语言模型(VLM)主要采用直接预测方法,在回答问题时立即生成简短的答案。这种直接反应范式的主要局限性在于它缺乏结构化的推理过程,这使得它对需要逻辑推理的任务效率较低。近期的研究表明,结合思维链(CoT)推理可以鼓励模型逐步推理,显著提高其问答能力。然而,即使使用CoT推理,大多数VLM在推理过程中也经常产生错误或幻觉输出。
大量的研究结果表明,这些问题的一个重要原因是现有VLM中推理过程的系统性和结构化不足。具体来说,通过引用系统,该模型不生成直接的推理链,而是参与多阶段推理。另一方面,结构化是指模型能够清楚地识别它所处的推理阶段,并理解每个阶段要解决的主要任务。作者观察到,VLM经常在没有充分组织问题和可用信息的情况下发起响应。此外,它们经常偏离对结论的逻辑推理,而不是过早地提出结论并随后试图证明其合理性。鉴于语言模型会逐一生成响应,一旦引入错误的结论,模型通常会沿着有缺陷的推理路径继续。