卡耐基梅隆与多家知名研究单位共同提出在LLM中引入自反馈机制

标题:Self-Refine: Iterative Refinement with Self-Feedback

作者:Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang Sean Welleck Bodhisattwa Prasad Majumder , Shashank Gupta Amir Yazdanbakhsh, Peter Clark

在这里插入图片描述
就像人类一样,LLMs在处理生成问题时不总是能够一次性生成最优质的文本(例如摘要、答案、解释)。与人们一样,本文引入了SELF-REFINE框架,通过反复的反馈和改善,类似地改进LLMs的初始输出。其主要思想是使用LLM生成输出,然后允许同一模型为其自身的输出提供多方面的反馈;最后,通过使用其自身的反馈,同一模型改进其之前生成的输出。与早期工作不同,本文的迭代改进框架不需要有监督的训练数据或强化学习,并且可与单个LLM一起使用。本文在7个不同的任务中进行了实验,涵盖从评论改写到数学推理的范围,证明了本文的方法优于直接生成。在所有任务中,使用SELF-REFINE生成的输出得到人类和自动化度量标准的更好评价,相对于直接使用GPT-3.5和GPT-4生成,平均改进幅度约为20%。

总结:

Self-Refine是一种迭代优化技术,它**使用自反馈机制来不断改进模型的性能。该技术涉及到两个模型,一个是基础模型,另一个是反馈模型。**基础模型用来生成输出,反馈模型用来对输出进行评估,并为基础模型提供反馈。通过迭代优化,基础模型逐步改进,从而提高其性能和准确度。Self-Refine可用于各种任务,如图像分类和语音识别等领域。它已在多项实验中证明了其有效性和鲁棒性。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值