Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

ALPHALLM结合MCTS和LLM,形成自改进循环,增强LLM在复杂推理任务中的表现。通过数据合成器、优化的MCTS和评论家模型提供无注释的自我学习,实现在数学推理任务上的性能提升。
摘要由CSDN通过智能技术生成

本文是LLM系列文章,针对《Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing》的翻译。

摘要

尽管大型语言模型(LLM)在各种任务上具有令人印象深刻的功能,但它们仍然难以处理涉及复杂推理和规划的场景。最近的工作提出了先进的提示技术和利用高质量数据进行微调的必要性,以增强LLM的推理能力。然而,这些方法本身就受到数据可用性和质量的限制。有鉴于此,自我纠正和自我学习成为可行的解决方案,采用策略使LLM能够完善其产出并从自我评估的奖励中学习。然而,LLM在自我完善反应方面的功效,特别是在复杂的推理和规划任务中,仍然令人怀疑。在本文中,我们引入了ALPHALM来进行LLM的自改进,它将蒙特卡罗树搜索(MCTS)与LLM相结合,建立了一个自改进循环,从而在没有额外注释的情况下增强了LLM的能力。ALPHALLM从AlphaGo的成功中汲取灵感,解决了将MCTS与LLM相结合以实现自我完善的独特挑战,包括数据稀缺性、语言任务的巨大搜索空间以及语言任务中反馈的主观性质。ALPHALM由提示合成组件、一种为语言任务量身定制的高效MCTS方法和三个用于精确反馈的评论家模型组成。我们在数学推理任务中的实验结果表明,ALPHALM在没有额外注释的情况下显著提高了LLM的性能,显示了LLM自我完善的潜力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值