卡耐基梅隆与多家知名研究单位共同提出在LLM中引入自反馈机制

Self-Refine是一个框架,利用大型语言模型(LLMs)自身的反馈进行迭代改进,提升其生成文本的质量。这种方法无需监督训练数据或强化学习,且在多个任务上表现出色,平均提升约20%的性能。实验涵盖了从文本重写到数学推理等任务,证明了Self-Refine的有效性。
摘要由CSDN通过智能技术生成

标题:Self-Refine: Iterative Refinement with Self-Feedback

作者:Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang Sean Welleck Bodhisattwa Prasad Majumder , Shashank Gupta Amir Yazdanbakhsh, Peter Clark

在这里插入图片描述
就像人类一样,LLMs在处理生成问题时不总是能够一次性生成最优质的文本(例如摘要、答案、解释)。与人们一样,本文引入了SELF-REFINE框架,通过反复的反馈和改善,类似地改进LLMs的初始输出。其主要思想是使用LLM生成输出,然后允许同一模型为其自身的输出提供多方面的反馈;最后,通过使用其自身的反馈,同一模型改进其之前生成的输出。与早期工作不同,本文的迭代改进框架不需要有监督的训练数据或强化学习,并且可与单个LLM一起使用。本文在7个不同的任务中进行了实验,涵盖从评论改写到数学推理的范围,证明了本文的方法优于直接生成。在所有任务中,使用SELF-REFINE生成的输出得到人类和自动化度量标准的更好评价,相对于直接使用GPT-3.5和GPT-4生成,平均改进幅度约为20%。

总结:

Self-Refine是一种迭代优化技术,它**使用自反馈机制来不断改进模型的性能。该技术涉及到两个模型,一个是基础模型,另一个是反馈模型。**基础模型用来生成输出,反馈模型用来对输出进行评估,并为基础模型提供反馈。通过迭代优化,基础模型逐步改进,从而提高其性能和准确度。Self-Refine可用于各种任务,如图像分类和语音识别等领域。它已在多项实验中证明了其有效性和鲁棒性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值