[Arxiv 2024] Self-Rewarding Language Models

Introduction

  • 作者提出 Self-Rewarding 训练框架,LLM 在训练过程中同时担任 actor 和 critic,actor 负责合成新数据,critic 负责判断合成数据质量用于组成高质量的偏好数据集用于模型的下一轮训练,在训练过程中,模型的 actor 和 critic 能力也会同步得到提升,从而逐步生成更高质量的数据并基于此不断迭代训练,使得 LLM 训练仅需少量人工标注数据,并获得 super-human feedback

Method

在这里插入图片描述

  • Initialization. 初始训练阶段需要一定量人类标注的 Seed instruction following dataSeed LLM-as-a-Judge instruction following data,使得预训练 LLM 获得一定的指令服从和回复质量评估能力
  • Self-Instruction Creation. 一轮训练完成后,LLM 可以自行生成 AI Feedback Training (AIFT) data 加入原始数据集用于下一轮训练. (1) 使用 few-shot prompting 生成新 prompts;(2) LLM 对每个 prompt 采样生成 N N N 个 responses;(3) 通过 LLM-as-a-Judge 给每个 response 评分,然后选择评分最高和最低的 responses 组成 preference pairs 用于下一轮 DPO 训练

Experiments

  • Instruction Following Ability.
    在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
  • Reward Modeling Ability.
    在这里插入图片描述

References

  • 15
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: ARXIV GR-QC 数据集是一个存放有关引力理论和量子计算的学术论文的数据集,它来自 ArXiv 学术论文库。要下载这个数据集,您可以在 ArXiv 网站上进行搜索,并使用相应的筛选器将结果限制在 GR-QC 分类下。您可以通过点击论文标题并使用浏览器的“另存为”功能来下载每篇论文。 此外,您还可以使用 ArXiv API 来访问和下载数据集。API 提供了一组程序接口,您可以使用它来搜索论文、获取论文摘要和元数据等。有关如何使用 ArXiv API 的更多信息,请参阅 ArXiv API 文档。 ### 回答2: ARXIV GR-QC 数据集是一个用于研究和分析的科学论文数据库。该数据库主要收集了与广义相对论(GR)和量子力学(QC)相关的论文。要下载这个数据集,首先需要访问 ARXIV GR-QC 数据集的官方网站。 在该网站上,可以找到数据集的下载链接或相关的信息。点击相应的链接,可以选择下载整个数据集或特定的部分。下载的文件通常是以压缩包的形式提供,需要用解压软件将其解压后得到数据文件。 一旦下载了数据集,就可以开始使用它进行分析和研究。数据集中包含了很多科学论文的元数据(如标题、作者、摘要等),并且可能还包含全文或相关的研究数据。可以使用各种数据分析工具和技术来探索和提取数据集中的信息。 ARXIV GR-QC 数据集的下载对于科研人员、学生和其他对广义相对论和量子力学感兴趣的人非常有用。这个数据集可以帮助研究者更好地了解最新的研究进展,探索新的研究领域,并且可以为他们的研究提供重要的参考和支持。 总的来说,ARXIV GR-QC 数据集是一个重要的资源,可以通过官方网站下载。通过使用该数据集,研究者可以更加深入地了解广义相对论和量子力学领域的最新动态,并进行进一步的分析和研究。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值