星际门:微软与OpenAI携手打造下一代超级智能的背后思考

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

在亚利桑那州沙漠中,一个耗资巨大的超级计算机由一家数十亿美元的公司建造,目的是创造超级智能。听起来像是电影情节(或者我们希望它是),但现实似乎正在发生,据说微软正在投资OpenAI建造世界上最先进的数据中心。

这个神秘项目的名字叫做“星际门”。

老实说,这个数字对我来说完全是天文数字,考虑到近期该领域朝着更高效的AI未来所取得的几项进展。除非……我思考太短浅,长期推理AI模型的理论——这些模型在纸上几乎不存在,或者没有从世界上最先进的AI实验室更进一步——正变成我们这个社会——还未意识到或准备好的现实

有史以来最重要的AI法则一次又一次,AI的规模化法则证明了怀疑者们的错误。现在,这两个词使得世界上最有价值的公司,微软,投资相当于世界第66大经济体GDP的资金于一个单一项目,星际门。但是……为什么呢?

规模化是第一选择,也是第二选择. 尽管大型语言模型(LLMs)稳步接近万亿参数标记,一些前沿模型如GPT-4、Claude 3或Gemini已经远远超过这个标记,但随着模型变大,出现饱和迹象的情况却看不到。用外行人的话来说,创建更大的模型持续提供更好的结果,就这么简单。用更专业的术语来说,它的困惑度,用来训练模型的指标,随着LLM变大继续下降。

什么是困惑度?如果一个模型对下一个词条不够自信,我们就说它感到“困惑”,意味着它对自己的预测“不确定”。换句话说,分配给正确词的概率越高,模型就越不困惑(或更自信)。

综上所述,这些大科技公司背后的实验室(谷歌、微软、Meta等)应该有所有动机去建造越来越大的数据中心。例如,微软、Meta、亚马逊和谷歌,按此顺序,大约占NVIDIA总收入的40%。但微软可能还有另一个原因。正如SemiAnalysis博客所解释的,谷歌的计算能力让其他人“看起来很可笑”。

正如你在上面看到的,差距预计只会越来越大。但再次,他们真的需要投资1000亿美元吗?如果我们看看最近的发展,答案是绝对不需要。

小型化竞赛- 看看最近的研究趋势,你会像我一样对此感到惊讶,因为从长远来看,AI应该变得更加便宜,这主要归功于四个关键的发展。

一切都是专家混合模型


此时,很难找到一个新模型不是专家混合模型的。正如Hyena操作员论文中所解释的,“越来越多的证据表明,注意力机制只利用了它们用于语言处理的二次能力的一小部分。”换句话说,模型越大,效果确实越好,但它们对它们近似的函数也越来越不适合。简单地说,它们是出了名的稀疏。对于每一个新的预测,模型实际参与预测的只是一个极小的部分,这意味着这是一个非常低效的过程。因此,专家混合模型提供了一个不可抗拒的机会。

我们不是在每一个单一预测中运行整个网络,正如我们知道的那样,这样做既浪费金钱也浪费时间,我们是将模型“分成”专家(神经元组)。

用外行人的话来说,正如下面所示,对于每一个单独的预测,一个称为“路由器”的softmax门选择了一定数量的专家。由于这些专家在训练期间已经存在,这些专家中的神经元变得专门化于特定主题。这样,你不是拥有一个“什么都知道”的巨大神经网络,而是拥有一组在非常具体的主题上专门化的专家。

这有两个含义:

对于每一个预测,只有模型的一小部分运行。例如,在Mixtral 8x7B的案例中,8个专家中只有2个在每次预测时运行。这意味着450亿个模型中只有120亿个参数在每次预测时被激活,从而减少了成本。它是一个大型模型,运行起来却像一个小得多的模型。更准确的训练。由于每组神经元需要学习的主题较少,它们表达知识的能力就更强,减少了“知识崩溃”的机会。如需深入了解专家混合模型今天的相关性、它们解决什么问题以及如何解决这些问题,请查看这里。但模型不仅变得更高效,它们也在变得更小。

1位时代


讽刺的是,微软在这方面处于领先地位。

通过领先的示例,我们意译到我们可以降低每个参数的精确度,而对性能没有可见的影响。

标准做法是每个参数占用2字节内存,或16位,这样我们可以提高每个参数的精度(例如,我们可以有一个参数值0.0328323而不是0.033)。结果显示,我们不需要这么高的精度。更重要的是,通过将一切转换为0和1,你可以避免需要矩阵乘法,因为每次乘法都变成了加法,这也意味着GPU可能不再那么必要了。但如果这还不足以让你相信模型变得更便宜,其他研究人员也在尝试改变过去7年AI中的“现状”。

混合架构,只是时间问题


尽管转换器及其传奇的注意力机制在性能上无与伦比,但它们远非理想的语言操作者。原因在于,虽然它们提供了无与伦比的语言建模能力,但它们的成本极高。简单来说,注意力机制允许序列中的每个词条关注序列中的其他词,并且重要的是,选择它必须更加注意哪些词。

问题是什么?

好吧,由于变压器是无状态的(没有固定的循环记忆或状态),每个词条必须计算其对每个其他词的注意力得分,这意味着注意力的成本复杂性是二次的。用外行的话来说,如果你将序列的长度加倍,你将使处理和内存成本增加四倍。现在,一种新型模型正在涌现,它不是抛弃注意力操作符,而是将其与次二次操作符混合。最近的一个例子是Jamba,它将Mamba操作符与注意力(以及专家混合模型)结合在一起,似乎在性能上与独立的变压器相匹敌,同时成本大大降低。

在我看来,所有新模型都将成为混合体,其次二次成本复杂性在此时此刻简直太诱人了。

但创新不仅来自软件方面,我们也在硬件级别看到它们。

戴上戒指


过去几个月中最相关的创新之一是Ring Attention,一种新的分布式计算架构,大大减少了内存需求。实际上,通过将序列分配到多个GPU上,我们消除了每个设备的内存瓶颈,使我们能够训练和运行具有疯狂大的序列长度的模型。据传,最近的一些模型,如Gemini 1.5或Claude 3,使用了Ring Attention来实现这些目的。总的来说,所有这些突破都在描绘同一个图景:我们在运行这些模型方面变得更加精明和高效。尽管如此,每个大型AI参与者都像没有明天一样在积累GPU。原因可能无非是我们正在向一个新的AI范式转变:

从长时间训练到长时间推理。

但我的意思是什么呢?

让模型思考!


有压倒性的证据,从OpenAI到MIT、Google Deepmind,甚至最近的Andrew Ng,出于我们无法完全解释的原因,如果我们增加推理时间,允许模型探索和迭代,结果会大幅改善。然而,这些模型和框架有一个问题:它们的成本极高。

我们有证据来证明这一点。

一个竞争程序员和一个数学奥林匹克选手. 过去一年左右发布的最令人印象深刻的AI模型之一是AlphaCode 2,这是一个在Gemini 1.0之上运行的AI模型/框架,它在竞争编程比赛中达到了85%的百分位数。问题是?如研究人员所承认的,部署规模过大的成本简直太高。原因很简单,它消耗了大量的计算资源,因为对于它面临的每一个问题,它不是试图一次解决,而是采样高达100万个不同的可能答案。然后,通过巧妙的过滤、聚类和筛选,它最终承诺一个答案并响应。这个过程的优势很明显:它进行的样本越多,偶然碰到正确答案的机会就越高。让模型思考。

另一个很好的例子是AlphaGeometry,也是由Google Deepmind开发,我们在这里看到了一个实际的搜索算法的实现。简单来说,模型“探索可能的辅助结构的领域”(简化给定几何定理的证明的线索),以缩小练习范围。更重要的是,如果模型遇到死胡同,它可以回溯并探索其他路径。这大大提高了最终探索正确路径的可能性,达到了这个模型被证明可以找到证明某些定理的更聪明、更简单的路径的程度。

但这一切与项目星际门有什么关系呢?

好吧,因为据文献记录,OpenAI也在使用类似的模型。以Q*(Q-星)的名字被称呼,它是另一个搜索+生成算法,据说在数学方面表现出色。说到底,所有这些新模型都是我们努力模仿人类的“系统2思维”,这是人类在面对复杂问题时进入的一种更深思熟虑、缓慢和有意识的心理状态。当前我们的LLMs匆忙回答问题(被称为系统1思维)的原因就在此。

所有这些归结为同一个原则:

LLMs为每个令牌预测分配相同的计算力,无论请求的复杂性如何,都不应该是这样。

最近谷歌的一项研究引入了混合深度,它训练模型动态分配计算力。换句话说,它让模型选择将多少计算力分配给每个预测,这可能是达到系统2思维的另一条有前景的路径。

冰山一角


对我来说,星际门是一个明确的声明,我们正在做一些大事。如果微软打算向OpenAI投资1000亿美元,而GPT-6或他们创造的任何东西只是一个“更大的GPT-4”,那是不可能的。

此外,无论这是基准测试不足的缺陷还是其他原因,事实是LLMs似乎在提高前辈的能力上正趋于饱和,因为Claude 3在GPT-4完成训练后将近两年才发布,仅略有改进。

但你怎么看呢?大型科技公司是否仅仅因为现金充裕,所以在投资计算上不计成本,或者他们知道一些其他人不知道的东西?

星际门的目的是训练下一代AI模型,长时间推理搜索+生成?

  • 22
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值