当下大型语言模型(LLMs)已成为理解和生成自然语言的重要工具。然而,这些模型的传统运作方式主要局限于“语言空间”内,通过一系列语言表述的推理步骤(即思维链,Chain of Thought,简称CoT)(Chain-of-Thought (CoT):引导大型语言模型解决问题的有效策略)来解决复杂问题。尽管这种方法在某些情况下有效,但语言空间并不总是最优的推理环境。为了探索LLMs在不受限制的潜在空间中进行推理的可能性,研究人员提出了一种新的范式——连续思维链(Chain of Continuous Thought,简称Coconut)。今天我们一起了解一下Coconut。
一、连续思维链(Coconut)方法概述
(一)语言模式与潜在模式的切换
Coconut 方法的核心在于 LLM 能够在 “语言模式” 和 “潜在模式” 之间灵活切换。在语言模式下,模型如同标准语言模型一样,以自回归方式生成下一个词元(token)。而在潜在模式中,模型直接利用前一个词元的最后隐藏状态作为下一个输入嵌入,此隐藏状态被定义为 “连续思维”,代表了模型当前的推理状态。
(二)特殊标记的运用
为了清晰界定潜在思维模式的起止,Coconut 引入了特殊标记<bot>和<eot>。例如,假设潜在推理发生在位置 i 和 j 之间,即当模型遇到<bot>时进入潜在模式,遇到<eot>时结束潜在模式。在潜在模式期间(i < t < j),模型使用前一个词元的最后隐藏状态 hi 作为输入嵌入,而非常规的词元嵌入。一旦潜在模式结束(t ≥ j),输入恢复为使用词元嵌入。
二、训练过程
(一)多阶段训练课程
Coconut 利用语言 CoT(