如果大模型有信仰，那一定是“规模法则”

最新推荐文章于 2024-08-26 18:56:03 发布

AI同道堂

最新推荐文章于 2024-08-26 18:56:03 发布

阅读量284

点赞数 6

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_39558582/article/details/141296933

版权

规模（scale）是除去时间、空间之外另一个重要的维度。规模缩放（Scaling）的过程中隐藏着世界非线性本质奥秘背后的共性——规模法则。结合伯努瓦·曼德布洛特 Benoit Mandelbrot的《大自然的分形几何》、杰弗里·韦斯特 Geoffery West 的《规模》以及唐纳德·特科特 Donnald Turcotte《分形与混沌——在地质学与地球物理学中的应用》等文献资料，介绍规模法则的相关的内容。
在这里插入图片描述

所谓“Scaling Laws”，就是模型性能会随着参数、算力、数据集的规模增加而提高。时间来到2024年，大模型领域依旧是“Scaling Laws”的统治区。

模型参数增长到万亿，训练集群从千卡到万卡、五万卡，前不久刚开源的一个高质量通用数据集达到45T，让开发者为了网络带宽而发愁……有人调侃：“在就近网络服务区下载好，再把硬盘用高铁飞机带过来，都比直接下载省时省力。”人工智能时代爆炸式的数据增长，对于攀爬Scaling law的中国AI产业来说，传统网络已经捉襟见肘，必须全面升级和重塑，更有效地支持大模型时代的联接需求。

Scaling Laws 是最早由 Open AI 提出的大模型开发的黄金经验法则，核心在于得到模型参数规模、模型训练数据量以及模型计算资源三因素之间关系。实验结果显示，在 transformer 架构下，如果不断扩大模型三因素规模，得到的模型效果越优，算力规模增大和升级仍是通往 AGI 的关键。模型三因素之间存在幂律关系，可对模型进行效果预测，同时三因素之间存在最优解。
OpenAI 在论文《Scaling Laws for Neural Language Models》中发现 AI 大语言模型性能的三个主要因素（即模型大小、数据集大小和训练计算量）存在幂律关系，幂律关系意味着可通过对数转换变成线性关系，从而实现模型建模，达到预训练模型对模型效果的预测作用，从而为模型实际训练提供重要参考和指导。同时 DeepMind 对于 Scaling Laws 的进一步研究发现，在设定条件下，模型三因素之间存在最优解。

万亿参数，传输“费时”。大模型的参数量巨大，需要传输大量的数据，传统网络无法满足高带宽需求，需要接入带宽高达400G甚至达到800G的超大容量网络。

万卡集群，训练“费力”。AI大模型并行计算模式，催生了新的大规模网络架构，从千卡到万卡集群，未来更新的GPT模型可能需要十万卡、几十万卡支撑起来。而AI计算集群规模越大，通信量和复杂度越大，网络设备的规模、端口数、光模块的数量指数上升，传统网络面临越来越明显的传输效率瓶颈，一次通信延误，会拖慢整个训练过程，导致整体计算集群效能低下、成本高昂。

万里部署，使用“费心”。算力的分布式部署，全国一体化算网可以减少训练推理成本，解决算力紧缺、算力贵的问题。但跨东西部的算力流动与调度，会受限于“联接瓶颈”，抖动、时延、较长的通信时间，都会让用户身心俱疲，宁可用硬盘坐高铁送。

总而言之，在AI大模型场景和应用中，让模型供应商、算力服务商、应用开发者及用户不头疼，轻松翻越“Scaling Laws”的网络，就是先进网络。

AI同道堂

关注

6
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
如果大模型有信仰，那一定是“规模法则”

人工智能时代爆炸式的数据增长，对于攀爬Scaling law的中国AI产业来说，传统网络已经捉襟见肘，必须全面升级和重塑，更有效地支持大模型时代的联接需求。而AI计算集群规模越大，通信量和复杂度越大，网络设备的规模、端口数、光模块的数量指数上升，传统网络面临越来越明显的传输效率瓶颈，一次通信延误，会拖慢整个训练过程，导致整体计算集群效能低下、成本高昂。总而言之，在AI大模型场景和应用中，让模型供应商、算力服务商、应用开发者及用户不头疼，轻松翻越“Scaling Laws”的网络，就是先进网络。
复制链接

扫一扫