Q*下的Q-Learning+A*是全部吗?

从GPT5的期待到OpenAI的草莓项目,再到国内学术和产业界对LLM解决复杂推理的探索,Q*似乎再一次成为了焦点。一年前,我被其吸引,因其与LLM的互补性、对复杂推理的探索和动态价值收敛的平衡。然而,随着GPT5的一再推迟、对AGI的重新审视以及对Q*机制的深入思考,产生了疑问:仅仅是Q*?

9433ffe190804dddaa36fbbe9715cdff.jpg

我们知道,大家普遍的共识Q*即是Q-Learning+A*亦或是表示贝尔曼学习最优的解的形式,而其核心即是这个最优解。拿棋局对弈或游戏模拟操控来说,智能体将根据当前对弈/模拟状态(s)与该状态下所采取的行动(a)计算价值函数Q(s,a),即Q(s,a)表示在当前状态下采取行动a所能获得的期望奖励值,在训练过程中,智能体通常会综合考虑EE dilemma以平衡探索与利用,通过观察每个状态下采取不同行动所获得的未来期望奖励来更新Q值,并以此不断优化Q函数并不断重复强化这一过程,使其逐渐收敛到最优值。需要注意的是这里的Q值的最优与否又会取决于智能体对行动空间的探索与尝试,如A*或MCTS等..同时这里在学习过程中对于不同任务场景下的EE dilemma的平衡考虑会尤为重要。

回到上述的核心“最优”,而最优是从rewards逐步收敛得来,对于一个相对开放信息的离散最优化问题如AlphaGo/Zero,通过self-play奖励反馈构建MCTS(同时考虑exploration下采用UCT)、Policy与Value综合决策网络以得到Q(s,a)的“最优”解,其reward带来的信号监督指引对于这种一过性对弈决策场景也许在其探索与推理的泛化空间上是相对吻合、完备且可行的(依赖于训练过程中的UCT&Q-Learning),如同当下生成式llm进行自回归tokenize预测所取得的成效。

a624f127fe8842a4855cd96350609e18.jpg

但问题是:将llm扩展至如system2复杂推理场景并采用Q-Learning+A*的方法,其reward的监督指引是否仍然有效且完备呢?尽管很多研究机构采用诸如PRM、step-DPO等增加过程稠密奖励信号的方法且进一步增加样本分布以达到扩展探索空间的目的..关键取决于其奖励监督信号是否能为推理内涵本身带来充分表征与意义,同样如llm自回归tokenize预测监督学习那样..

对于此,我目前持怀疑态度:reward这种监督信号并不能使得模型隐层网络中充分表征出复杂推理过程。

因此,我们的方法是...

d796fdd771674dd7bdf0b30e8804040c.jpeg

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值