原创:谭婧
2024年第一季度的尾巴,3月29日。
有一张发自厂商的喜报截图,
低调地在微信群之间转发。
或早或晚间,贾扬清在推特转发并点评此事。
细心的人很难不关注:
一家低调的AI芯片公司,
居然做了一个这么好的大语言模型。
那须得边挖边聊了。
喜报来自一家美国AI芯片初创公司:SambaNova。
从名字上看,Nova是新的恒星,
Samba就是“忘情桑巴舞”的那个桑巴。
那种淹没在鼓点和节奏里的舞蹈。
这让SambaNova这个名字听上去就能感受热情洋溢,干劲十足。
现在的AI世界,开源闭源一片欣欣向荣。
谁会是下一颗新星?
无论开源赢,还是闭源赢,都是AI芯片公司赢。
于是,AI芯片公司重金砸万亿参数模型,
一点毛病没有。
按着这个逻辑,回看中国,
同时拥有万亿参数大模型和AI芯片的公司,有哪几家?
这个问题很难回答,
因为万亿参数大模型就算在炼,也是高度保密的状态。
这个问题也不难回答,
玩家极其之少。
AI芯片的门槛很高,万亿参数的门槛也很高。
华为算是玩家之一,
但到底有没有炼出万亿参数大模型还是个未知数。
也许藏而不露,
也许还在奋斗。
不过,从过往信息来看,
华为公司倒是有一篇万亿参数大模型的论文很出名:
《PANGU(盘古)-Σ:基于稀疏异构计算的万亿参数语言模》。
研究归研究,发布归发布,
学术论文和正式推出万亿参数模型是两件事情。
SambaNova这家公司在2024年2月发布Samba-1(桑巴一号)。
开源模型,一万亿参数。
该模型与其 SN40L 芯片集成以提高性能。
SambaNova官网主页最显眼的地方写着:
Samba-1: One Trillion Parameters, One Model, One Platform
芯片公司这样说,翻译过来就一句话:
打法很明确,AI全家桶。
华为在AI战场上也是这个的打法。
看起来确实是竞争对手。
甚且,这家公司挺擅长乘胜追击。
有了Samba-1开源模型,他们并未止步。
成果就是于2024年3月29日,
推出的MoE闭源大模型,
Samba-CoE v0.2。
公司宣称:
“Samba-CoE v0.2模型运行速度惊人,
可达每秒 330 个标记词元(token),
超越了众多业界知名竞争对手的模型,
其中包括刚刚发布的Databricks DBRX、
MistralAI公司的 Mixtral-8x7B,
以及埃隆·马斯克旗下xAI公司的Grok-1 等。”
CoE就是Composition of Experts ,
目前流行的是MoE,Mixture of Experts。
看上去,CoE是MoE这种思路上的一种前进和创新。
对这种方法,还有一种粗暴的总结,
“开源模型的集成与模型合并”。
或者说,将多个小型“专家”模型聚合成一个大型解决方案,
充当单个大型模型。
既然“专家多”那么就可以横跨不同专业领域,
拥有更多更广泛的知识、且有更高精度,
以及让多模态锦上添花。
可以看到,官宣中提到的相比较的三个模型可都是开源模型。
拿闭源比较开源,有人发问了:
“为什么要将闭源模型与开源模型进行比较?”
推特上这位网友的疑问,其实反映了目前现状,
即闭源大模型和开源大模型之间竞争不可回避。