卡耐基梅隆与多家知名研究单位共同提出在LLM中引入自反馈机制

最新推荐文章于 2024-04-22 20:46:15 发布

YingJingh

最新推荐文章于 2024-04-22 20:46:15 发布

阅读量587

点赞数

分类专栏：论文记录工作需要文章标签：人工智能

本文链接：https://blog.csdn.net/Hekena/article/details/129960722

版权

论文记录同时被 2 个专栏收录

147 篇文章 9 订阅

订阅专栏

工作需要

34 篇文章 0 订阅

订阅专栏

标题：Self-Refine: Iterative Refinement with Self-Feedback

作者：Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang Sean Welleck Bodhisattwa Prasad Majumder , Shashank Gupta Amir Yazdanbakhsh, Peter Clark

在这里插入图片描述
就像人类一样，LLMs在处理生成问题时不总是能够一次性生成最优质的文本（例如摘要、答案、解释）。与人们一样，本文引入了SELF-REFINE框架，通过反复的反馈和改善，类似地改进LLMs的初始输出。其主要思想是使用LLM生成输出，然后允许同一模型为其自身的输出提供多方面的反馈；最后，通过使用其自身的反馈，同一模型改进其之前生成的输出。与早期工作不同，本文的迭代改进框架不需要有监督的训练数据或强化学习，并且可与单个LLM一起使用。本文在7个不同的任务中进行了实验，涵盖从评论改写到数学推理的范围，证明了本文的方法优于直接生成。在所有任务中，使用SELF-REFINE生成的输出得到人类和自动化度量标准的更好评价，相对于直接使用GPT-3.5和GPT-4生成，平均改进幅度约为20%。

总结：

Self-Refine是一种迭代优化技术，它**使用自反馈机制来不断改进模型的性能。该技术涉及到两个模型，一个是基础模型，另一个是反馈模型。**基础模型用来生成输出，反馈模型用来对输出进行评估，并为基础模型提供反馈。通过迭代优化，基础模型逐步改进，从而提高其性能和准确度。Self-Refine可用于各种任务，如图像分类和语音识别等领域。它已在多项实验中证明了其有效性和鲁棒性。

YingJingh

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
卡耐基梅隆与多家知名研究单位共同提出在LLM中引入自反馈机制

与人们一样，本文引入了SELF-REFINE框架，通过反复的反馈和改善，类似地改进LLMs的初始输出。最后，通过使用其自身的反馈，同一模型改进其之前生成的输出。本文在7个不同的任务中进行了实验，涵盖从评论改写到数学推理的范围，证明了本文的方法优于直接生成。在所有任务中，使用SELF-REFINE生成的输出得到人类和自动化度量标准的更好评价，相对于直接使用GPT-3.5和GPT-4生成，平均改进幅度约为20%。**基础模型用来生成输出，反馈模型用来对输出进行评估，并为基础模型提供反馈。
复制链接

扫一扫