多显卡训练深度学习,nvidia-smi中有一个volatile gpu util,现在batch size很小,显存很充足,volatile gpu util已经能达到很充足很高的利用率。现在有必要加大batch size的数量吗? 为什么加大batch size之后xxit/s这个数值反而变小了,你知道这个数值是什么意思嘛?是不是每条数据/s的意思?
在深度学习训练中,batch size的设置是一个很重要的超参数。以下是对于你问题的一些回答:
-
首先,
volatile gpu util
表示的是GPU的计算资源利用率,而不是显存利用率。它越高,代表GPU的计算能力被更好地利用了。在你的情况下,这个指标已经很高,说明你的GPU计算能力已经被很好地利用。 -
那么是否还需要增大batch size呢?这并不是一个简单的问题,因为batch size的大小会影响模型的学习效果。如果你的模型已经能够达到你期望的精度,那么没有必要增大batch size。但是,如果你想要尝试提高模型的精度,可能需要试验不同的batch size。
-
你提到xxit/s这个数值反而变小了,这个数值通常代表每秒处理的迭代次数或者说批次数。增大batch size后,因为每一次迭代需要处理更多的数据,所以迭代速度可能会变慢,导致