重大突破谷歌DeepMind展示GenRM技术：AI推理能力的新里程碑

会议之眼

于 2024-09-04 10:38:51 发布

阅读量552

点赞数 4

文章标签： ai 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ConferenceEye/article/details/141887007

版权

引言：近日，谷歌DeepMind团队在arxiv平台上发表了一项突破性论文，正式推出了GenRM技术，这一创新成果显著提升了AI在复杂任务处理中的能力表现，再次跨越了技术界限，为人工智能的推理能力树立了崭新的标杆。

超越传统：

在 AI 行业内，提高大语言模型（LLMs）的主流做法是 best-of-n 模式，即由大语言模型生成的 n 个候选解决方案由验证器进行排序并选出最佳方案。这个简单而有效的策略，显著提升了模型的推理性能，但在涉及复杂推理的问题上仍然存在明显的短板。

基于LLMs的验证器通常被训练成判别分类器来为解决方案打分，无法利用预训练大语言模型的文本生成能力。这导致模型经常会自信地做出逻辑或事实性错误，对于推理问题尤其具有挑战性。（图：GenRM与其他验证方法在几个推理任务上的性能比较）

GenRM技术介绍：

GenRM技术的核心在于将验证过程重新定义为一个生成任务，具体来说是将其视为下一个标记预测问题，使AI能够更自然地利用其文本生成能力。该技术还支持Chain-of-Thought（CoT）推理，模型在得出最终结论前生成中间推理步骤，从而不仅评估了解决方案的正确性，还通过更详细和结构化的评估提升了整体推理过程。

GenRM的优势

相较于传统的判别式奖励模型，GenRM技术展现出了显著的优势：

思维链(Chain-of-Thought, CoT)推理：GenRM可以自然地生成中间推理步骤，详细解释为什么一个解决方案是正确或错误的。这种能力使得验证器能够捕捉到更细微的推理错误，提高了验证的准确性和可解释性。

推理时计算优化：通过采样多个CoT推理路径并进行多数投票，GenRM-CoT可以在推理时利用额外的计算资源来提高验证准确性。这种方法允许模型探索多种可能的推理路径，从而得出更可靠的结论。

统一训练：GenRM允许将解决方案生成和验证任务统一到同一个模型中进行训练。这种统一训练方法可能会带来正面的知识迁移，提高模型在两个任务上的表现。

指令调优兼容性：由于GenRM基于标准的下一个标记预测，它可以无缝地与指令调优等技术结合，进一步提高模型的性能和通用性。

实验验证

GenRM的卓越性能在多个推理任务中，GenRM技术展现了其卓越的性能。特别是在算法和小学数学推理任务中，GenRM的性能优于传统验证器和LLM-as-a-Judge验证器，解决问题的成功率提高了16%到64%。

实际应用

GenRM的广泛前景 GenRM技术的成功不仅在于实验室内的表现，更在于其在实际应用中的广泛前景。从教育科技到自动化代码审查，从医疗诊断辅助到法律文件分析，GenRM技术有望在多个领域发挥重要作用。

结语：谷歌DeepMind的GenRM技术是AI推理能力发展的一个重要里程碑。它不仅展示了AI技术的潜力，更为我们打开了通往更智能、更可靠的AI系统的未来之门。随着技术的不断进步，我们期待GenRM技术能够在更多的领域中发挥其独特的价值。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。