英伟达H100用11分钟训完GPT-3，PyTorch创始人：不要只看时间

最新推荐文章于 2024-11-05 23:32:11 发布

计算机视觉研究院

最新推荐文章于 2024-11-05 23:32:11 发布

阅读量160

点赞数

文章标签： gpt-3 pytorch 人工智能 python 深度学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ==&mid=2247524366&idx=2&sn=eed6cede5b6efa5d55d3e472d22273bd&chksm=fb711cd2cc0695c4b4eeef22feb644602297c5ba3ecb7fc7821998d0de0aa441cbf00b0ca2ab&scene=126&sessionid=0

版权

点击蓝字关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

赢了，但没有全赢。

昨天，老黄又「赢麻了」！

为啥呢？原来在最新的 MLPerf 基准测试中，英伟达 H100 GPU 芯片组在以下八项基准测试中全部创下了新纪录，同时成为唯一一个跑完所有测试的硬件平台。

据悉，最新 MLPerf Training v3.0 包含了基于 GPT-3 175B 的大型语言模型（LLM）测试，侧重于生成式 AI 能力。

图源：MLPerf benchmarks。

LLM 训练测试中还使用了专注于 GPU 加速的云计算服务提供商 CoreWeave 提供的 NVIDIA HGX H100 基础设施，在多个规模上联合提交了 LLM 工作负载。

出来的结果令人振奋：在 896 个英特尔 Xeon Platinum 8462Y 和 3584 个英伟达 H100 芯片的合作下，仅仅用了 11 分钟就完成了基于 GPT-3 的 LLM 训练任务。

一时之间，AI 社区响起了老黄赢麻了的欢呼声。

可结果真如此吗？今天有人对此事提出了质疑。

先是 PyTorch 创始人 Soumith Chintala，他认为 GPT-3 并没有在 11 分钟内训练完成。使用 3584 个 H100 GPU，GPT-3 架构在 C4 数据集上训练了 11 分钟，对数概率为 2.69。

这里不要只关注「11 分钟」，因为这就像说「ResNet-50 在 MNIST（其实这里他想说的是 CIFAR100）上，5 秒内训练达到了 80％的准确率。」

推特用户 @abhi_venigalla 对 Soumith 的观点表示赞同，他是生成式 AI 创业公司 MosaicML 的研究者。他认为 MLPerf 基准测试中训练 GPT-3 的时间更可能是 2 天。

在他看来，该基准测试并不是完整的 GPT-3。MLPerf 的 LLM 基准只提供了一个开始的检查点，然后必须达到目标损失。

因此，该基准 11 分钟跑完 GPT-3 只覆盖 1.2B 的 token，而非完整的 300B token。此外看起来更像是 540 TFLOPs/H100，从配置上看像 FP8，~27% MFU。

不过他也承认，从 H100 在其软件生命周期早期这一点来看，以此规模实现现在这种性能也相当惊人。

所以，最新 MLPerf 基准测试中 11 分钟训完 GPT-3 是不是被误解呢？评论区的小伙伴也可以发表下自己的观点。

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

VX：2311123606

往期推荐

🔗

计算机视觉研究院

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。