论文阅读_2_大模型记忆反思_《Self-Refine: Iterative Refinement with Self-Feedback》

摘要

像人一样,LLM也不能一次尝试就能产生最好的结果。受启发与人类精炼写作的过程,本文提出self-refine的方法。该方法LLM,通过内部的反馈和精炼机制来提升模型最初的输出结果。这个方法的主要idea是,用LLM先生成一个最初的输出,然后在用这个LLM对自己的结果做出评价然后根据评价来升华自己的最初的输出。self-refine不需要有监督训练数据,额外的训练,强化学习等等,只需要一个LLM同时作为,生成器,反馈器和精炼器。本文中在7个不同的任务中进行评价,从对话生成到数学推理。从结果来看,self-refine生成的答案更受人欢迎,并且自动化的评价指标也高于单步的生成的结果。平均提升20%左右。

Code and data at https://selfrefine.info/

1.引言

虽然大模型能生成连贯的输出,但是对于复杂问题的生成,还是力不从心。这种的情况下,如果需要提高生成效果需要迭代优化。常用的迭代精炼答案需要用具体的领域数据训练精炼模型。其他方法依靠外部监督模型或者奖励模型,或者人类标注。这些方法低估了不需要外部监督的有效的精炼方法。

不停迭代是优化人类解决问题的基本特点。迭代优化是一个这样的过程:首先产出初稿,接着根据自我反馈不断优化提炼。这篇论文中,提出大模型可以通过自我优化而不是附加训练,在多种任务中产出高质量输出。

本文提出self-refine:可迭代的自我优化算法。包括feedback和refine两个步骤。给定一个初始大模型M,根据大模型生成输出,将输出输入大模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值