探讨大模型未来:从Scaling Law到数据红利再到终极Token工厂

这篇文章主要来自于上周和一个朋友三小时的聊天中非AI辅助编程的内容的一个回顾。本文主要内容包含三部分:

  • 工业化的Scaling Law:超越参数与数据

  • 数据红利:合成数据的潜力

  • 终极目标:Token工厂与Token GDP

Scaling Law 本质是工业化思维

不过我觉得很多人对Scaling Law 还缺乏理解,单纯的还是在想“效果和参数规模等比上升”,现在应该遇到瓶颈是在数据。但实际上这么思考是不够的。

Scaling Law 为啥叫Law,很显然不仅仅是在大模型这一块。从人类进入工业社会以后,人类科技往前走,基本靠的都是Scaling Law,或者换个词汇,大家就更理解了,叫工业规模化,工业规模推动科技的的进步。

工业规模化其实是一体两面,首先必须通过工业规模化来降低成本,其次规模化需要有足够数量的消费。

所以本质上还是靠海量需求来驱动,从而迭代进步。

对于 OpenAI 而言,当前的瓶颈绝对不在数据,因为做的早,他先期的数据就比绝大多数人好,其次,因为现在的自己的模型很强,半合成数据其实都还没充分利用起来,更别说未来的全合成数据(以及人类社会因为大模型起来后会积累更多的物理数据)。

很显然他的瓶颈不在于数据,而在于算力。我们从年初的Sora就可以看出来,Sora延续了大语言模型的方式,依然是包里的scaling Law,海量的数据+大规模参数。但为啥用不起来,其实还是受限于当前算力昂贵的成本。也就是你有更好的模型,但是你可能无法被用户使用起来。此外,目前应用市场还没有起来,这也是个非常大的问题。也就是工业规模化的两个要素基本还没有形成循环,这才是目前OpenAI无法推出越来越强的大模型的根本原因。你也可以看到OpenAI 到底在做什么, 不断地做上层应用生态,不断地免费让大家用他们最好的模型,本质上都是为了抬起消费端需求,从而能够推动它内部的大模型的工业规模化。这种焦虑当前也是普遍存在的。

比 Sora 就是公开被使用,大部分用户可能会尝鲜,很快就不用了,那么这个市场就不够大,那自身就无法工业规模化,就无法解决商业化这个问题。

数据红利远没有用完

另外我再谈一点合成数据的问题。半合成数据的红利,OpenAI 还远没有挖完。通过往合成数据加点物理世界的微量元素,就能获得极大的效果。比如通过多模态大语言模型阅读视频,从而获得更多的物理世界的认知。从视频抽取了大量“文本数据”,还有语音,还有监控等等(大部分监控数据都是没有被保留的),这种我们就成为半合成数据,虽然是大模型产生的,但是被添加了物理世界的微量元素,所以这种数据的质量就非常好。那其他家目前在这点上还有困难,因为他们的模型自身还没有达到OpenAI的水平,他们要去做这种半合成数据是有些困难的。

大模型发展的终态

最后,再来说另外一个事。大模型的最终产物终究是token, 只是这个token不同的模型产出,对应的价值可能不一样。token数*token价值(我们姑且按成本来算)= 总价值产出,或者叫 token GDP。 我之前说过,我们应该有个 token指数,去衡量居民,政府,企业的 token GPD。 根据工业化的基本概念,未来肯定是几个主流的 token 工厂去完成 token 生产。这种token工厂未来会是谁?可能是类似 lepton, anyscale,硅基流动这种厂商,也可以是 OpenAI,阿里这种原创模型厂商,也可能都会存在。但最终为了规模效应,一定会聚拢在有限的几家。

Token的消耗会有多大呢,未来人类的所有信息都需要用 Token来表达。这个论点反向推导一件事,未来AGI能不能实现不重要,只要以当前 GPT4o 为基准,不断渐进式提升效果,并且将token单价指数降低,那么大模型就已经成功了。这也是 Sam altman 正在做的事情。

如何评价大模型现在迭代速度变慢了

人类的资金流向哪,哪就会加速。大模型能够吸引的资金时间终究是有限的,而且大模型要商业化比如需要市场,市场终究要靠应用,所以资金会加速流向应用,那么那个时候,大模型迭代就会慢下来。现在你应该已经有体感了。

  • 7
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值