大模型不再变大了吗？

kiiy2

于 2024-08-15 12:15:00 发布

阅读量402

点赞数 10

文章标签：人工智能语言模型

本文链接：https://blog.csdn.net/kiiy2/article/details/141198158

版权

放眼过往，人工智能始终处在一种螺旋上升的过程中。大模型以当下的技术条件其规模扩张速度出现放缓趋势，但依然在通过算法迭代等新方式不断变强。

自2023年初GPT-4问世以来，全世界都在等待下一个大模型的诞生。而今2024年已经过半，却仍未听到有关GPT-5的任何风声。与此同时，AI界似乎已经刮起了一股完全不同的“小模型”风潮。7月18日，OpenAI正式宣布了GPT-4o mini，其模型大小缩小到前代GPT-3.5的60%，但在各项测试中仍能够维持GPT-4的水准。各大AI厂商也在几乎同一周内宣布了小模型项目。如苹果发布了DCLM 7B开源小模型，英伟达发布了NeMo 12B，HuggingFace发布了SmolLM-135M。它们都在维持原有大模型性能的同时，大大降低模型大小，最小的仅1亿，最大的也不过120亿。这与被认为缔造了OpenAI成功的“规模定律”（Scaling Law）的发展路径明显不同。深挖“规模定律”失灵的背后，乃是多重因素共同作用的结果。

数据瓶颈

近日，《经济学人》发表文章，援引AI研究公司Epoch AI的数据，认为若按照目前的趋势，到2028年互联网上的所有高质量文本数据都将被使用完毕。一旦整个互联网的数据都被用于训练AI，数据集的规模就难以再继续依靠简单的扩容来增加。这种现象被业内称为“数据墙”，是当下大模型公司面临的重要难题。OpenAI总裁奥尔特曼曾在多个场合暗示，OpenAI发布的新的大模型不会在参数量上有较大提升，而将把精力放在算法改良上。这可以说从某种程度上证实了“数据墙”的存在。

芯片瓶颈

尽管全球大模型百花齐放，但高水准的芯片制造厂却屈指可数，可用于大模型的芯片供给缺口大。据行业分析公司Omedia统计，全球AIPC领域的芯片80%由英伟达占据，而英伟达的芯片绝大部分来源于台积电。这是由于AI推理设计需要使用3nm以下的高带宽内存（HBM）芯片，而这类芯片对生产工艺要求高，只有台积电能够实现较高的成品率。因此，台积电3nm生产线产能持续吃紧，仅2024年初产能缺口就达20%以上。从地缘政治上看，台积电一家独大颇令美国忧虑。为此，微软、谷歌、Meta等AI巨头已在联手谋求替代方案，但这一过程需要时间。

能源瓶颈

更大的模型虽然可以更好地回答用户问题，但能耗却不成比例地增加，使能源成为了大模型发展的制约项。事实上，大模型竞相发展之下，美国已率先拉响能源警钟。美国电力研究协会（EPRI）报告认为，在最严峻的情况下，美国的数据中心用电占比将超过9%，而当前的全球数据中心平均用电占比仅为1%到2%。为此，微软、谷歌、Meta等AI巨头不仅在全球范围内争夺优质电力资源，也在研发小型核电站等可供数据中心使用的新能源，但面对全球大模型用户庞大的增长预期，AI巨头短期内无法解决相应的能源需求缺口。

盈利瓶颈

尽管大模型目前仍是全球科技市场的宠儿，但其正面临越来越大的商业变现压力。外媒分析称，OpenAI今年或面临高达50亿美元的巨额亏损。谷歌、微软、Meta和亚马逊等头部企业亦是如此，其8月财报纷纷显示这些公司今年以来商业表现接连下滑。对此德意志银行认为：“AI的投资回报还难以用具体数字来衡量。”《华尔街见闻》也认为：“投资者对科技企业通过大举投入AI获利的做法越来越没有耐心，成本阴影笼罩着AI巨头。”此外，受AI智能机等概念的兴起，硅谷正对能够离线运行在单台手机上的AI模型展现出浓厚兴趣。不论是为了降低成本，还是迎合新的市场趋势，给大模型“瘦身”都势在必行。

监管瓶颈

过去一年来，全球针对人工智能的立法显著增加。8月1日，欧盟《人工智能法案》正式生效。法案为人工智能系统在欧盟市场的投放、服务和使用提供了统一规则，其中针对通用人工智能大模型和基础模型实施了特别的监管措施。而正在修订中的美国加州《前沿人工智能模型安全可靠创新法》（SB-1047）更是直接点名针对未来的规模更大的人工智能模型，可能要求其开发者承担更多法律义务。对此，硅谷内不乏反对之声，包括Meta首席AI科学家杨立昆、AI教父级人物吴恩达等业界翘楚，有些甚至扬言要搬离加州。但更多AI巨头则明白所谓“搬家”只是气话，如果大模型的“大”带来的是“树大招风”，那么变小未尝不是一种求生策略。

对大模型的理解加深

相比几年前，如今的技术人员对如何提升大模型的性能有了更精准的见解，因而不再盲目求“大”。2024年4月2日，来自谷歌的团队发表论文，对不同模型大小如何影响模型采样效率进行了研究。其显示，在给定预算的情况下，较小的模型在生成高质量结果方面经常优于大模型，反而是大模型由于拥有过多的冗余数据或干扰项，在反应速度、能耗等指标上表现逊于小模型。对此，前OpenAI、现特斯拉AI研究员卡帕西认为，该趋势符合自卷积神经网络以来的AI技术演进规律，为了能够更高效地完成任务，模型必须“先变大，后变小”，直至获得完美的训练集。

当然，大模型也不是完全不可能再扩大规模，只是受限于当下的技术条件，其规模扩张速度出现放缓趋势。与此同时，大模型通过算法迭代等新方式不断变强。放眼过往，人工智能始终处在一种螺旋上升的过程中。正如当初搞大模型不应“一哄而上”，如今也不应因小模型的增多而全盘否定大模型的价值。森林里的动物有大有小，形态各异，各自占据不同的生态位，才能形成一个有机而健康的生态圈，科技生态圈亦如是。

kiiy2

关注

10
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
大模型不再变大了吗？

其显示，在给定预算的情况下，较小的模型在生成高质量结果方面经常优于大模型，反而是大模型由于拥有过多的冗余数据或干扰项，在反应速度、能耗等指标上表现逊于小模型。对此，前OpenAI、现特斯拉AI研究员卡帕西认为，该趋势符合自卷积神经网络以来的AI技术演进规律，为了能够更高效地完成任务，模型必须“先变大，后变小”，直至获得完美的训练集。近日，《经济学人》发表文章，援引AI研究公司Epoch AI的数据，认为若按照目前的趋势，到2028年互联网上的所有高质量文本数据都将被使用完毕。
复制链接

扫一扫