大模型不再变大了吗?

放眼过往,人工智能始终处在一种螺旋上升的过程中。大模型以当下的技术条件其规模扩张速度出现放缓趋势,但依然在通过算法迭代等新方式不断变强。

自2023年初GPT-4问世以来,全世界都在等待下一个大模型的诞生。而今2024年已经过半,却仍未听到有关GPT-5的任何风声。与此同时,AI界似乎已经刮起了一股完全不同的“小模型”风潮。7月18日,OpenAI正式宣布了GPT-4o mini,其模型大小缩小到前代GPT-3.5的60%,但在各项测试中仍能够维持GPT-4的水准。各大AI厂商也在几乎同一周内宣布了小模型项目。如苹果发布了DCLM 7B开源小模型,英伟达发布了NeMo 12B,HuggingFace发布了SmolLM-135M。它们都在维持原有大模型性能的同时,大大降低模型大小,最小的仅1亿,最大的也不过120亿。这与被认为缔造了OpenAI成功的“规模定律”(Scaling Law)的发展路径明显不同。深挖“规模定律”失灵的背后,乃是多重因素共同作用的结果。

数据瓶颈

近日,《经济学人》发表文章,援引AI研究公司Epoch AI的数据,认为若按照目前的趋势,到2028年互联网上的所有高质量文本数据都将被使用完毕。一旦整个互联网的数据都被用于训练AI,数据集的规模就难以再继续依靠简单的扩容来增加。这种现象被业内称为“数据墙”,是当下大模型公司面临的重要难题。OpenAI总裁奥尔特曼曾在多个场合暗示,OpenAI发布的新的大模型不会在参数量上有较大提升,而将把精力放在算法改良上。这可以说从某种程度上证实了“数据墙”的存在。

芯片瓶颈

尽管全球大模型百花齐放,但高水准的芯片制造厂却屈指可数,可用于大模型的芯片供给缺口大。据行业分析公司Omedia统计,全球AIPC领域的芯片80%由英伟达占据,而英伟达的芯片绝大部分来源于台积电。这是由于AI推理设计需要使用3nm以下的高带宽内存(HBM)芯片,而这类芯片对生产工艺要求高,只有台积电能够实现较高的成品率。因此,台积电3nm生产线产能持续吃紧,仅2024年初产能缺口就达20%以上。从地缘政治上看,台积电一家独大颇令美国忧虑。为此,微软、谷歌、Meta等AI巨头已在联手谋求替代方案,但这一过程需要时间。

能源瓶颈

更大的模型虽然可以更好地回答用户问题,但能耗却不成比例地增加,使能源成为了大模型发展的制约项。事实上,大模型竞相发展之下,美国已率先拉响能源警钟。美国电力研究协会(EPRI)报告认为,在最严峻的情况下,美国的数据中心用电占比将超过9%,而当前的全球数据中心平均用电占比仅为1%到2%。为此,微软、谷歌、Meta等AI巨头不仅在全球范围内争夺优质电力资源,也在研发小型核电站等可供数据中心使用的新能源,但面对全球大模型用户庞大的增长预期,AI巨头短期内无法解决相应的能源需求缺口。

盈利瓶颈

尽管大模型目前仍是全球科技市场的宠儿,但其正面临越来越大的商业变现压力。外媒分析称,OpenAI今年或面临高达50亿美元的巨额亏损。谷歌、微软、Meta和亚马逊等头部企业亦是如此,其8月财报纷纷显示这些公司今年以来商业表现接连下滑。对此德意志银行认为:“AI的投资回报还难以用具体数字来衡量。”《华尔街见闻》也认为:“投资者对科技企业通过大举投入AI获利的做法越来越没有耐心,成本阴影笼罩着AI巨头。”此外,受AI智能机等概念的兴起,硅谷正对能够离线运行在单台手机上的AI模型展现出浓厚兴趣。不论是为了降低成本,还是迎合新的市场趋势,给大模型“瘦身”都势在必行。

监管瓶颈

过去一年来,全球针对人工智能的立法显著增加。8月1日,欧盟《人工智能法案》正式生效。法案为人工智能系统在欧盟市场的投放、服务和使用提供了统一规则,其中针对通用人工智能大模型和基础模型实施了特别的监管措施。而正在修订中的美国加州《前沿人工智能模型安全可靠创新法》(SB-1047)更是直接点名针对未来的规模更大的人工智能模型,可能要求其开发者承担更多法律义务。对此,硅谷内不乏反对之声,包括Meta首席AI科学家杨立昆、AI教父级人物吴恩达等业界翘楚,有些甚至扬言要搬离加州。但更多AI巨头则明白所谓“搬家”只是气话,如果大模型的“大”带来的是“树大招风”,那么变小未尝不是一种求生策略。

对大模型的理解加深

相比几年前,如今的技术人员对如何提升大模型的性能有了更精准的见解,因而不再盲目求“大”。2024年4月2日,来自谷歌的团队发表论文,对不同模型大小如何影响模型采样效率进行了研究。其显示,在给定预算的情况下,较小的模型在生成高质量结果方面经常优于大模型,反而是大模型由于拥有过多的冗余数据或干扰项,在反应速度、能耗等指标上表现逊于小模型。对此,前OpenAI、现特斯拉AI研究员卡帕西认为,该趋势符合自卷积神经网络以来的AI技术演进规律,为了能够更高效地完成任务,模型必须“先变大,后变小”,直至获得完美的训练集。

当然,大模型也不是完全不可能再扩大规模,只是受限于当下的技术条件,其规模扩张速度出现放缓趋势。与此同时,大模型通过算法迭代等新方式不断变强。放眼过往,人工智能始终处在一种螺旋上升的过程中。正如当初搞大模型不应“一哄而上”,如今也不应因小模型的增多而全盘否定大模型的价值。森林里的动物有大有小,形态各异,各自占据不同的生态位,才能形成一个有机而健康的生态圈,科技生态圈亦如是。

  • 10
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值