重大突破 谷歌DeepMind展示GenRM技术:AI推理能力的新里程碑

引言: 近日,谷歌DeepMind团队在arxiv平台上发表了一项突破性论文,正式推出了GenRM技术,这一创新成果显著提升了AI在复杂任务处理中的能力表现,再次跨越了技术界限,为人工智能的推理能力树立了崭新的标杆。

1f21d3c24aac11a0389c01b7caf37d0e.jpeg

  1. 超越传统:

在 AI 行业内,提高大语言模型(LLMs)的主流做法是 best-of-n 模式,即由大语言模型生成的 n 个候选解决方案由验证器进行排序并选出最佳方案。这个简单而有效的策略,显著提升了模型的推理性能,但在涉及复杂推理的问题上仍然存在明显的短板。

基于LLMs的验证器通常被训练成判别分类器来为解决方案打分,无法利用预训练大语言模型的文本生成能力。这导致模型经常会自信地做出逻辑或事实性错误,对于推理问题尤其具有挑战性。(图:GenRM与其他验证方法在几个推理任务上的性能比较)

a305be61bbab194eb131bbf8744d33e6.jpeg

  1. GenRM技术介绍:

GenRM技术的核心在于将验证过程重新定义为一个生成任务,具体来说是将其视为下一个标记预测问题,使AI能够更自然地利用其文本生成能力。该技术还支持Chain-of-Thought(CoT)推理,模型在得出最终结论前生成中间推理步骤,从而不仅评估了解决方案的正确性,还通过更详细和结构化的评估提升了整体推理过程。

eac7cc5a179fa59691a55fd2e2679936.jpeg

  1. GenRM的优势

相较于传统的判别式奖励模型,GenRM技术展现出了显著的优势:

思维链(Chain-of-Thought, CoT)推理:GenRM可以自然地生成中间推理步骤,详细解释为什么一个解决方案是正确或错误的。这种能力使得验证器能够捕捉到更细微的推理错误,提高了验证的准确性和可解释性。

推理时计算优化:通过采样多个CoT推理路径并进行多数投票,GenRM-CoT可以在推理时利用额外的计算资源来提高验证准确性。这种方法允许模型探索多种可能的推理路径,从而得出更可靠的结论。

统一训练:GenRM允许将解决方案生成和验证任务统一到同一个模型中进行训练。这种统一训练方法可能会带来正面的知识迁移,提高模型在两个任务上的表现。

指令调优兼容性:由于GenRM基于标准的下一个标记预测,它可以无缝地与指令调优等技术结合,进一步提高模型的性能和通用性。

356f4f3fe02f8616ef1d535bc245e807.jpeg

  1. 实验验证

GenRM的卓越性能 在多个推理任务中,GenRM技术展现了其卓越的性能。特别是在算法和小学数学推理任务中,GenRM的性能优于传统验证器和LLM-as-a-Judge验证器,解决问题的成功率提高了16%到64%。

c2b57174fa06f6534874aea290c56abe.jpeg

  1. 实际应用

GenRM的广泛前景 GenRM技术的成功不仅在于实验室内的表现,更在于其在实际应用中的广泛前景。从教育科技到自动化代码审查,从医疗诊断辅助到法律文件分析,GenRM技术有望在多个领域发挥重要作用。

结语: 谷歌DeepMind的GenRM技术是AI推理能力发展的一个重要里程碑。它不仅展示了AI技术的潜力,更为我们打开了通往更智能、更可靠的AI系统的未来之门。随着技术的不断进步,我们期待GenRM技术能够在更多的领域中发挥其独特的价值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值