大模型训练的性能指标：吞吐率 Throughput 是指什么？

最新推荐文章于 2025-02-28 16:39:47 发布

taoqick

最新推荐文章于 2025-02-28 16:39:47 发布

阅读量4.4k

点赞数 1

文章标签：人工智能深度学习机器学习

原文链接：https://www.zhihu.com/question/596311688/answer/2989554131

版权

经常看大模型的论文，特别是Megatron-LM的好几篇论文做了大量的性能对比，各种并行切分的策略。里面有大量的 throughput（吞吐量）。

那么这个throughput 吞吐率或者吞吐量到底值得是什么？怎么去计算的吗？为什么会使用这个指标作为大模型的一个很重要的性能指标。

神经网络的吞吐量（Throughput）定义为网络模型在单位时间内（例如，1s）可以处理的最大输入的训练样本数据。

以下转载自 https://www.zhihu.com/question/596311688/answer/2989554131
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。