OpenAI 的新人工智能强化微调技术可改变科学家使用其模型的方式-CSDN博客

本文链接：https://blog.csdn.net/weixin_41446370/article/details/144307545

在这里插入图片描述
与第一天向 ChatGPT 全面推广 OpenAI o1 模型相比，OpenAI "12 Days of OpenAI "活动的第二天转向了不那么引人注目、更多企业利益的方向。

相反，OpenAI 宣布计划发布强化微调（Reinforcement Fine-Tuning，RFT），这是一种为开发人员定制人工智能模型的方法，开发人员希望针对特定类型的任务，尤其是更复杂的任务，调整 OpenAI 的算法。与第一天以消费者为中心的更新相比，这次发布标志着向企业应用的明显转变。你可以将 RFT 视为一种通过推理来改进人工智能模型工作方式的方法。使用开发者提供的数据集和评估标准，OpenAI 的平台就可以训练其专门的人工智能，而无需从以后的经验中进行大量昂贵的强化训练。

RFT 可以为法律和科学领域使用的人工智能工具带来福音。 OpenAI 在直播中重点介绍了汤普森路透社利用 RFT 打造的 CoCounsel AI 助手，以及 RFT 如何帮助伯克利实验室研究罕见遗传疾病的研究人员。不过，对于 ChatGPT 或其他 OpenAI 产品的普通用户来说，商业合作在短期内不会带来太大的变化。

在这里插入图片描述

OpenAI的研究员本周五介绍，科学家、开发人员和研究人员可以根据自己的数据、而不是仅仅使用公开可用的数据，量身定制OpenAI的强大推理模型o1。不同行业的人可以使用强化学习来创建基于 o1 的专家模型，从而提高该领域的整体专业知识水平。开发者、研究者和机器学习工程师将首次能运用强化学习，打造在精通他们各自专业领域的专家模型。

OpenAI的研究员称，强化微调并不是单单教模型模型输出，它的运作方式是，当模型发现一个问题的时候，研究者给模型空间区仔细思考这个问题，然后评估模型给出的最终解答，运用强化学习，研究者可以强化产生正确答案的思路，抑制产生错误答案的思路，只需要“几十个例子”（a few dozen examples）、甚至12个例子，模型就能以有效的新方式学习特定领域的推理。
在这里插入图片描述
通过强化学习，用户可以用大模型在特定数据上训练其他模型。这对于涉及到大量数据的复杂领域或需要专家领域知识的新研究非常有用。研究者举例称，最近和汤森路透合作，运用强化微调微调o1 mini，让充当法务助理，帮助他们的法律专业人士完成大部分分析工作流。

OpenAI称，OpenAI的定制模型平台将支持强化学习，强化学习也是OpenAI内部用于训练自家前沿模型的技术，如GPT-4o和o1系列模型。在OpenAi的内测中，强化微调已经在生物化学、安全、法律和医疗保健领域取得成功。OpenAI计划，2025年初让强化微调面向公众发布，目前已对企业、大学和研究院开放申请测试通道。

在这里插入图片描述
伯克利大学罕见遗传病研究员 Justin Reese参与了OpenAI本周五对o1 mini模型的现场演示。演示中，研究者试图从样本数据池中获取可能导致疾病的模型 ID 基因。

研究员展示了一个评估表，下图可见，第一行是本周四OpenAI发布的正式版o1测评表现，第二行是o1 mini的测评结果，第三行结果来自经过最终强化微调的o1 mini。研究员进行了三类评估，其中，top @1是测试模型给出的正确答案出现在列表最前列中的概率，top@5是正确答案出现在前五列的概率，top@max是答案出现在所有正确答案列表的概率。

如图所示，正式版o1的测试通过率为25%，o1 mini为17%，而强化微调后的o1 mini竟然达到31%，超过了正式版o1，比正式版o1的测评结果高24%，而且相比未强化微调前，微调后的结果提高了82.3%。