OpenAI即将发布“草莓”模型 来源:medium
据报道,OpenAI计划在未来两周内发布其新的AI模型Strawberry(草莓)。据 Seeking Alpha周二(9 月 10 日)援引The Information 的一篇付费文章报道,新模型可以解决从未遇到过的数学问题,并且可以在回答之前「思考」问题。
让模型具备「思考」能力一直是一个潜在的瓶颈,据悉草莓模型的诞生是为了应对现有人工智能技术的局限性,并推动大语言模型的理解力和问题解决能力迈上新的台阶。那么在豪言壮志之外,草莓模型究竟运用了哪些核心技术?有可能会展现出哪些前所未有的能力?
本文对草莓模型的来龙去脉和技术内核进行了梳理,以飨读者。
编辑:李梦佳
草莓模型的项目背景源于OpenAI对现有大语言模型不足之处的深刻认识。在过去,尽管大语言模型在许多场景中表现出色,但在处理复杂且具有挑战性的问题时,效果却往往不尽人意。为了突破这一瓶颈,OpenAI决定开发一款新模型,以提升人工智能的自我训练和进化能力,使其能够应对前所未见的问题,并不断提升自身的智能水平。
这一切始于几年前,OpenAI的一群顶尖科学家和工程师们聚在一起,探讨如何让大语言模型在复杂任务中的表现更上一层楼。经过无数次的讨论和实验,他们意识到仅靠传统的大数据训练无法解决所有问题。于是,草莓项目应运而生。
按照十几位人工智能研究人员的说法,草莓项目的目标是实现目前大语言模型尚未具备的功能。这也是为什么OpenAI在现阶段并不打算公开关于「草莓」的详细资料的原因之一。当被问及「草莓」的细节时,OpenAI的一位发言人只是绕了个弯表示:“我们希望AI大模型能像人类那样看待和理解这个世界。不断研究新的AI能力是业界的普遍做法,毕竟我们都相信AI的推理能力会随着时间的推移而不断提高。”
尽管如此,草莓项目的工作原理在OpenAI内部依然是严格保密的,外界对于草莓模型的具体发布时间也仍然一无所知。然而,这份神秘感反而增加了人们对Orion和草莓项目的期待。不过目前普遍的共识认为,草莓模型的核心技术之一是自学推理器(STaR)技术,这使得该项目具备了独特的自我训练和进化能力。通过这种技术,草莓项目不仅仅是为了提高人工智能的性能,更是为了让人工智能在各个领域展现出更强大和独特的能力,从而推动整个人工智能领域迈向新的境界。
缓解「幻觉」的两条路径:外部检索和内部增强
现有的大语言模型(如GPT-4)是通过大量文本数据训练而成的,能够生成高度逼真的自然语言文本。然而,这些模型有时会产生一种被称为「幻觉」的现象,即生成的内容虽然语法正确、逻辑连贯,但实际上是不准确或完全虚构的。幻觉的产生源于模型的工作原理:大语言模型通过预测下一个词来生成文本,而不是基于对事实的理解或知识的验证。
因此,它们可能会在缺乏足够背景信息或训练数据的情况下,生成看似合理但实际上错误的信息。幻觉不仅限于事实错误,还可能包括虚构的引文、错误的历史事件或不正确的科学数据。这种现象在实际应用中可能带来风险,例如在医学、法律或新闻领域,错误的信息可能导致严重的后果。因此,理解和识别大语言模型的幻觉现象,并采取措施加以预防和纠正,是确保这些模型安全有效使用的重要方面。