OpenAI o1 System Card 中文浓缩版

最新推荐文章于 2024-10-16 20:02:20 发布

ku_code_ku

最新推荐文章于 2024-10-16 20:02:20 发布

阅读量413

点赞数 5

分类专栏：科技动态文章标签： LLM openai o1-preview AIGC

本文链接：https://blog.csdn.net/m0_56022510/article/details/142258419

版权

科技动态专栏收录该内容

8 篇文章 16 订阅

订阅专栏

介绍

o1 模型系列通过大规模强化学习进行训练，以使用思维链进行推理。这些高级推理功能为提高模型的安全性和稳健性提供了新的途径。特别是，我们的模型可以在响应可能不安全的提示时根据上下文推理我们的安全策略。这导致在某些风险基准测试上具有最先进的性能，例如生成非法建议、选择刻板的响应以及屈服于已知的越狱。在回答之前，训练模型整合一条思维链有可能带来巨大的好处，同时也会增加因智力提高而产生的潜在风险。我们的结果强调了构建稳健的对齐方法、广泛压力测试其有效性并维护细致的风险管理协议的必要性。本报告概述了对 OpenAI o1-preview 和 OpenAI o1-mini 模型进行的安全工作，包括安全评估、外部红队和准备框架评估。
在这里插入图片描述

模型与数据

o1 大型语言模型系列使用强化学习进行训练，以执行复杂的推理。O1 在回答之前会思考。它可以在回答用户之前产生一个很长的思维链。OpenAI o1-preview 是该模型的早期版本，而 OpenAI o1-mini 是该模型的更快版本，在编码方面特别有效。通过训练，模型学会完善他们的思维过程，尝试不同的策略，并认识到他们的错误。Reasoning 允许 o1 模型遵循我们设定的特定准则和模型策略，确保它们的行为符合我们的安全期望。这意味着他们更擅长提供有用的答案并抵制绕过安全规则的要求，以避免产生不安全或不适当的内容。o1-preview 在各种评估中都是最先进的（SOTA），涵盖编码、数学和已知的越狱基准。
这两个模型在不同的数据集上进行了预训练，包括公开可用的数据、通过合作伙伴关系访问的专有数据以及内部开发的自定义数据集，这些共同有助于模型强大的推理和对话能力。

公共数据：两模型都在各种公开可用的数据集上进行了训练。包括 Web 数据和开源数据集。关键组成部分包括推理数据和科学文献。这确保了模型精通常识和技术主题，增强了它们执行复杂推理任务的能力。
来自数据合作伙伴的专有数据：进一步增强 o1-preview 的功能。
数据过滤和优化：我们的数据处理管道包括严格的过滤。

思维链

与 GPT-4o 相比，o1-preview 和 o1-mini 表现出更强的能力，可以将任务分解为子任务，推理哪些策略可以有效地成功完成进攻性安全任务，并在这些策略失败后修改计划。我们还观察到，推理技能导致了 “奖励黑客攻击” 的发生率更高，在这种情况下，该模型找到了一种更简单的方法来实现未指定任务或由于错误而本应不可能完成的任务中的目标。
在这里插入图片描述