RLHF不够用了,OpenAI设计出了基于规则的全新奖励机制

fa0b9e549768f4ddb2c2817fb68e0641.gif

©作者 | 机器之心编辑部

来源 | 机器之心

自大模型兴起以来,使用强化学习从人类反馈(RLHF)中微调语言模型一直是确保 AI 准确遵循指令的首选方法。

为了确保 AI 系统安全运行并与人类价值观保持一致,我们需要定义期望行为并收集人类反馈来训练「奖励模型」。这种模型通过发出期望的动作来指导 AI。但是,收集这些常规和重复任务的人类反馈通常效率不高。此外,如果安全政策发生变化,已经收集的反馈可能会过时,需要新的数据。

我们能否构建一种新的机制来完成这些任务?近日,OpenAI 公布了一种教导 AI 模型遵守安全政策的新方法,称为基于规则的奖励(Rule-Based Rewards,RBR)。 

相关论文已经放出。

24b16a3bd09babf4cf414e1501f4caa0.png

论文题目:

Rule Based Rewards for Language Model Safety

论文链接:

https://cdn.openai.com/rule-based-rewards-for-language-model-safety.pdf

代码链接:

https://github.com/openai/safety-rbr-code-and-data

论文作者之一、OpenAI 安全系统负责人 Lilian Weng 表示,「RBR 可以自动执行一些模型微调。传统上, 我们依赖于来自人类反馈的强化学习作为默认的对齐训练方法来训练模型,这确实有效。然而在实践中,我们面临的挑战是,我们花了很多时间讨论政策的细节,而到最后,政策可能已经发生了变化。」

RBR 根据一组安全规则提供 RL 信号,使其更容易适应不断变化的安全政策,而无需严重依赖人类数据。此外,借助 RBR,研究者能够以更统一的视角看待安全性和模型能力,因为更强大的分级模型可以提供更高质量的 RL 信号。

OpenAI 表示自 GPT-4 发布以来,他们一直将 RBR 用作安全堆栈的一部分,包括 GPT-4o mini,并计划在未来的模型中实施它。

19f531d2991a9c47cd9d42d0c820ada9.png

为什么要提出 RBR?

随着大型语言模型(LLM)功能的增强和普及,确保其安全性和对齐变得越来越重要。最近的许多工作都集中在使用人类偏好数据来调整模型上,例如基于人类反馈的强化学习(RLHF)。

然而,仅使用人类反馈来实现目标安全规范还面临许多挑战。为模型安全性收集和维护人类数据通常既费钱又费时,而且随着模型能力的提高或用户行为的改变,安全准则也会发生变化,这些数据可能会过时。

即使要求相对稳定,也很难向注释者传达。安全方面的情况尤其如此,因为所需的模型响应非常复杂,需要对是否响应以及如何响应请求做出细微差别。如果说明不够明确,注释者可能不得不依赖个人偏见,从而导致超出预期的模型行为,如变得过于谨慎,或以不理想的风格(如评判)做出响应。

例如,在 OpenAI 的一次实验中,一些注释者在对用户有关自残请求的可能回复进行排序时,偏向于将用户转到美国自杀热线,而这对美国以外的用户没有帮助。要解决这些问题,往往需要重新标注或收集新数据,这既昂贵又耗时。

为了解决这些问题,使用 AI 反馈的方法最近越来越受欢迎,其中最突出的是宪法 AI(Constitutional AI)。这些方法利用 AI 反馈合成训练数据,与人类数据相结合,用于监督微调(SFT)和奖励模型(RM)训练步骤。

不过,在宪法 AI 和其他方法中,「宪法」涉及「选择危害较小的响应」等一般性指导原则,AI 模型有很大的自由裁量权来决定什么是有害的。在现实世界的部署中,我们需要执行更详细的政策,规定应该拒绝哪些提示,以及拒绝的方式是什么。

因此,在这篇论文中,OpenAI 的研究者提出了一种新的 AI 反馈方法 ——RBR,它允许人类详细说明所需的模型响应,类似于给人类注释者的指示。

b59672b54e72bf8fce4cc65bdf285db4.png

RBR 的工作原理是怎样的?

实施 RBR 的方法包括定义一组命题 —— 关于模型响应中期望或不期望方面的简单陈述,例如「带有评判性」、「包含不允许的内容」、「提及安全政策」、「免责声明」等。然后,这些命题被用来形成规则,这些规则被精心设计以捕捉在各种场景中安全和适当响应的细微差别。

例如,在面对不安全请求时,拒绝(如「抱歉,我无法帮你」)是一种期望的模型响应。相关规则将规定,拒绝应「包含简短的道歉」并且「应说明无法遵从」。

研究团队设计了三类期望的模型行为,用于处理有害或敏感的话题。根据安全政策,不同的请求对应不同的模型响应类型。

d25e77a9f30449ea00a1bf37d8f3c9a8.png

▲ 图中内容由AI工具翻译,仅供参考

以下是一些命题的简化示例,以及它们如何映射理想行为或非理想行为到不同响应类型的。

e16be12aae70d3bf1b8af402ccbf005f.png

▲ 图中内容由AI工具翻译,仅供参考

研究者在下表中提供了一些在实验中训练模型所完成的示例。

012019950a61845dc871b29f13cbd89f.png

eb1776699a1c5b753e2a530d773d5c3c.png

4cedf12350a1451421e14b989257efed.png

▲ 图中内容由AI工具翻译,仅供参考

评估器是一个固定的语言模型,根据响应遵循规则的程度对其进行评分,从而使 RBR 方法能够灵活适应新规则和安全政策。

RBR 使用这些评分来拟合一个线性模型,该模型的权重参数是从一个已知理想响应类型的小数据集,以及对应的期望做法和不期望做法中学习的。

这些 RBR 奖励随后与来自「仅提供帮助」的奖励模型的奖励结合起来,作为 PPO 算法的额外信号,以鼓励模型遵循安全行为策略。

该方法允许研究者对模型的行为进行精细控制,确保其不仅避免有害内容,而且以一种既表示尊重又有帮助的方式进行。

1c8f0498806c7e97b73f1c9f0e5ebc5f.jpeg

▲ 强化学习过程中RBR与传统奖励模型的集成

fa339d806c9ec6cf9699ff1bb536dae8.png

RBR 好用吗?

实验显示,经过 RBR 训练的模型表现出与经过人类反馈训练的模型相当的安全性能。前者还减少了错误地拒绝安全请求(即过度拒绝)的情况。

此外,RBR 还显著减少了对大量人工数据的需求,使训练过程更快、更具成本效益。

随着模型能力和安全准则的发展,RBR 可以通过修改或添加新规则快速更新,而无需进行大量重新训练。

b6b2d764f757226e90af1c4aee4e7ede.png

▲ 该图显示了有用性(以模型正确遵循安全提示的百分比来衡量)与安全性(以模型正确拒绝不安全提示的百分比来衡量)之间的权衡。对于这两个指标,值越高越好。右上角标记了有用性和安全性之间的完美平衡。有用性基线不使用安全性 RBR,往往更有用但安全性较低。人类基线是在仅有帮助和人工注释的安全性数据上进行训练的,往往非常安全但有用性较低。借助 RBR,OpenAI 的目标是使模型既安全又有用。

f8a55c3659252eb7cf4f008e673fe83d.png

RBR 有哪些局限?

尽管规则基础的系统(RBR)在有明确、直观规则的任务中表现良好,但在更主观的任务中(如撰写高质量的文章),应用 RBR 可能会有些棘手。然而,RBR 可以与人类反馈结合起来,以平衡这些挑战。例如,RBR 可以强制执行特定的准则(如「不要使用俚语」或模型规范中的规则),而人类反馈可以帮助处理更细微的方面(如整体连贯性)。

RBR 的强度被优化为既能正确执行安全偏好,又不会过度影响最终的奖励评分 —— 这样,RLHF 奖励模型仍然可以在如写作风格等方面提供强有力的信号。 

伦理考量:将安全检查从人类转移到 AI 上可能会减少对 AI 安全的人工监督,并且如果使用有偏见的模型提供 RBR 奖励,还可能放大潜在的偏见。为了解决这个问题,研究人员应该仔细设计 RBR,以确保其公平和准确,并考虑结合使用 RBR 和人类反馈,以最大限度地减少风险。 

OpenAI 表示,RBR 不仅限于安全训练,它们可以适应各种任务,其中明确的规则可以定义所需的行为,例如为特定应用程序定制模型响应的个性或格式。下一步,OpenAI 还计划进行更广泛的消融研究,以更全面地了解不同的 RBR 组件、使用合成数据进行规则开发以及人工评估,以验证 RBR 在包括安全以外的其他领域的各种应用中的有效性。

参考内容:

https://openai.com/index/improving-model-safety-behavior-with-rule-based-rewards/

更多阅读

e0a2130402fb8599a138be9fe1c1e5ca.png

2fb04a97224ffcd32496e5bc07c6fb2a.png

2c6c43a1fb7c80456b7ab76cf74f7b94.png

d121084048319fba32cb268d39293174.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

8706d275f3f8c7ce31031962ecde4735.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

·

9714696fd4271d47d5e21a5bf1e4f72b.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
图像识别技术在病虫害检测中的应用是一个快速发展的领域,它结合了计算机视觉和机器学习算法来自动识别和分类植物上的病虫害。以下是这一技术的一些关键步骤和组成部分: 1. **数据收集**:首先需要收集大量的植物图像数据,这些数据包括健康植物的图像以及受不同病虫害影响的植物图像。 2. **图像预处理**:对收集到的图像进行处理,以提高后续分析的准确性。这可能包括调整亮度、对比度、去噪、裁剪、缩放等。 3. **特征提取**:从图像中提取有助于识别病虫害的特征。这些特征可能包括颜色、纹理、形状、边缘等。 4. **模型训练**:使用机器学习算法(如支持向量机、随机森林、卷积神经网络等)来训练模型。训练过程中,算法会学习如何根据提取的特征来识别不同的病虫害。 5. **模型验证和测试**:在独立的测试集上验证模型的性能,以确保其准确性和泛化能力。 6. **部署和应用**:将训练好的模型部署到实际的病虫害检测系统中,可以是移动应用、网页服务或集成到智能农业设备中。 7. **实时监测**:在实际应用中,系统可以实时接收植物图像,并快速给病虫害的检测结果。 8. **持续学习**:随着时间的推移,系统可以不断学习新的病虫害样本,以提高其识别能力。 9. **用户界面**:为了方便用户使用,通常会有一个用户友好的界面,显示检测结果,并提供进一步的指导或建议。 这项技术的优势在于它可以快速、准确地识别病虫害,甚至在早期阶段就能发现问题,从而及时采取措施。此外,它还可以减少对化学农药的依赖,支持可持续农业发展。随着技术的不断进步,图像识别在病虫害检测中的应用将越来越广泛。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值