连续思维链(Chain of Continuous Thought):解锁LLM的高级推理能力

当下大型语言模型(LLMs)已成为理解和生成自然语言的重要工具。然而,这些模型的传统运作方式主要局限于“语言空间”内,通过一系列语言表述的推理步骤(即思维链,Chain of Thought,简称CoT)(Chain-of-Thought (CoT):引导大型语言模型解决问题的有效策略)来解决复杂问题。尽管这种方法在某些情况下有效,但语言空间并不总是最优的推理环境。为了探索LLMs在不受限制的潜在空间中进行推理的可能性,研究人员提出了一种新的范式——连续思维链(Chain of Continuous Thought,简称Coconut)。今天我们一起了解一下Coconut。

一、连续思维链(Coconut)方法概述

(一)语言模式与潜在模式的切换

Coconut 方法的核心在于 LLM 能够在 “语言模式” 和 “潜在模式” 之间灵活切换。在语言模式下,模型如同标准语言模型一样,以自回归方式生成下一个词元(token)。而在潜在模式中,模型直接利用前一个词元的最后隐藏状态作为下一个输入嵌入,此隐藏状态被定义为 “连续思维”,代表了模型当前的推理状态。

(二)特殊标记的运用

为了清晰界定潜在思维模式的起止,Coconut 引入了特殊标记<bot>和<eot>。例如,假设潜在推理发生在位置 i 和 j 之间,即当模型遇到<bot>时进入潜在模式,遇到<eot>时结束潜在模式。在潜在模式期间(i < t < j),模型使用前一个词元的最后隐藏状态 hi 作为输入嵌入,而非常规的词元嵌入。一旦潜在模式结束(t ≥ j),输入恢复为使用词元嵌入。

二、训练过程

(一)多阶段训练课程

Coconut 利用语言 CoT(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型之路

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值