原创 超 超的闲思世界 2024年09月11日 19:17 北京
9月11日消息,据外媒The Information昨晚报道,OpenAI的新模型「草莓」(Strawberry),将在未来两周内作为ChatGPT服务的一部分发布。
「草莓」项目是OpenAI盛传已久的神秘Q*模型,据传是此前OpenAI政变大戏的关键原因之一。这个秋天,它将带来推理能力的飞跃,助力GPT-5更上一层楼。想象一下,一个能给出产品营销策略建议,甚至还能能轻松解决复杂数学题、编程难题的人工智能,是不是很酷?
「草莓」模型不是简单的升级版AI,它在处理各种复杂问题上展现出了惊人的实力。而且,它还能在处理问题时“深思熟虑”,给出更准确的答案。这与我们常说的“快思考”和“慢思考”有点像。传统的AI像是“快思考”,反应迅速但有时会犯错;而「草莓」则更像是“慢思考”,虽然反应稍慢,但答案往往更靠谱。
本文将带大家一探究竟,「草莓」模型是如何助力GPT-5的?它又是如何在“快思考”与“慢思考”之间找到平衡的?
01「草莓」?GPT-5?
在最新的大模型进展中,OpenAI的「草莓」模型无疑是备受关注。与其说「草莓」是一个模型,不如说它是OpenAI在追求更高智能道路上的一块里程碑。「草莓」并非单一的模型,而是OpenAI研发团队倾注心血,旨在大幅强化推理能力并生成高质量数据的一系列技术集合。
「草莓」模型的核心特点在于其强大的推理能力。与现有的生成式智能相比,「草莓」能够解决更为复杂的问题,尤其是那些之前从未见过的数学难题。此外,它在编程领域也展现出了不俗的实力。但「草莓」的能力远不止于此,经过适当的“思考”时间,它同样能够应对一些主观性更强、需要深度理解的问题,如产品营销策略等。
而「草莓」与GPT-5之间的关联,则体现在数据生成方面。「草莓」通过自我对弈强化学习(self-play RL)的方式,不断与自己博弈,生成高质量的合成数据。这些数据不仅用于训练「草莓」自身,更重要的是,它们也被用来训练OpenAI的下一代旗舰大语言模型——“猎户座”(Orion),进而间接提升GPT-5的性能。
值得一提的是,「草莓」模型在模拟人类的慢思考过程方面也取得了显著成果。与传统的快速响应模型不同,「草莓」在回答问题前会进行一段“思考”时间,这个过程通常持续10到20秒。虽然这看似增加了响应时间,但实际上