大模型ChatGLM Lora微调的参数详探- 多卡版本

最新推荐文章于 2025-03-11 22:24:01 发布

强化学习曾小健

最新推荐文章于 2025-03-11 22:24:01 发布

阅读量3.5k

点赞数 1

分类专栏： LLM大语言模型文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_37574187/article/details/131542680

版权

LLM大语言模型专栏收录该内容

564 篇文章 ¥199.90 ¥299.90

订阅专栏

超级会员免费看

多显卡训练深度学习，nvidia-smi中有一个volatile gpu util，现在batch size很小，显存很充足，volatile gpu util已经能达到很充足很高的利用率。现在有必要加大batch size的数量吗？为什么加大batch size之后xxit/s这个数值反而变小了，你知道这个数值是什么意思嘛？是不是每条数据/s的意思？

在深度学习训练中，batch size的设置是一个很重要的超参数。以下是对于你问题的一些回答：

首先，volatile gpu util表示的是GPU的计算资源利用率，而不是显存利用率。它越高，代表GPU的计算能力被更好地利用了。在你的情况下，这个指标已经很高，说明你的GPU计算能力已经被很好地利用。
那么是否还需要增大batch size呢？这并不是一个简单的问题，因为batch size的大小会影响模型的学习效果。如果你的模型已经能够达到你期望的精度，那么没有必要增大batch size。但是，如果你想要尝试提高模型的精度，可能需要试验不同的batch size。
你提到xxit/s这个数值反而变小了，这个数值通常代表每秒处理的迭代次数或者说批次数。增大batch size后，因为每一次迭代需要处理更多的数据，所以迭代速度可能会变慢，导致

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

强化学习曾小健 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。