GPU高显存占用、低使用率的原因分析过程

最新推荐文章于 2025-04-05 16:14:34 发布

y4ung

最新推荐文章于 2025-04-05 16:14:34 发布

阅读量1.6w

点赞数 4

分类专栏： NLP 问题文章标签： GPU利用率深度学习训练速度数据预处理垃圾回收

本文链接：https://blog.csdn.net/qq_35056292/article/details/116167205

版权

问题同时被 2 个专栏收录

37 篇文章

订阅专栏

NLP

9 篇文章

订阅专栏

博主在训练深度学习模型时遇到GPU显存占用高但利用率低的问题，发现是由于数据预处理（padding）导致的。通过查看`DataLoader`源码，确认在每次迭代时会调用`collate_fn`进行padding。尝试预先处理所有数据并未改善速度。最终，发现真正的原因是训练过程中频繁调用`gc.collect()`进行垃圾回收，这成为了性能瓶颈。移除`gc.collect()`后，训练速度显著提升，实现了GPU资源的有效利用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天在训练模型的时候，发现GPU的显存都快满了，但是GPU的利用率很低，基本是隔几秒才会到100%，然后马上恢复为0。

如下图所示。训完一个epoch要一天左右，心态都给我整崩了

在这里插入图片描述

在网上找到了一些不错的资料：

猜测在train函数中，在cpu上运行的时间太长了，毕竟我是确实看到有那么一瞬间GPU的利用率很高的。然后我做了以下尝试：

修改DataLoader中的num_workers和pin_memory参数，都没效果。

猜测是每次生成batch时，padding的时间太长导致的。我先去看了dataloader.py和fetch.py的源码，发现每次迭代的时候，确实都会调用collate_fn，然后把padding后的数据返回。

class DataLoader(Generic[T_co]):
	...
    def __iter__(self) -> '_BaseDataLoaderIter':
    # When using a single worker the returned iterator should be
    # created everytime to avoid reseting its state
    # However, in the case of a multiple workers iterator
    # the iterator is only created once in the lifetime of the
    # DataLoader object so that workers can be reused
    if self.persistent_workers and self.num_workers > 0:
        if self._iterator is None:
            self._iterator = self._get_iterator()  # 这里这里
        else:
            self._iterator._reset(self)
        return self._iterator
    else:
        return self._get_iterator()

    def _get_iterator(self) -> '_BaseDataLoaderIter':
        if self.num_workers == 0:
            return _SingleProcessDataLoaderIter(self)  # 这里这里
        else:
            self.check_worker_number_rationality()
            return _MultiProcessingDataLoaderIter(self)

class _SingleProcessDataLoaderIter(_BaseDataLoaderIter):
    def __init__(self, loader):
        super(_SingleProcessDataLoaderIter, self).__init__(loader)
        assert self._timeout == 0
        assert self._num_workers == 0
		
		# 这里这里
        self._dataset_fetcher = _DatasetKind.create_fetcher(
            self._dataset_kind, self._dataset, self._auto_collation, self._collate_fn, self._drop_last)  

    def _next_data(self):
        index = self._next_index()  # may raise StopIteration
        # 这里这里
        data = self._dataset_fetcher.fetch(index)  # may raise StopIteration
        if self._pin_memory:
            data = _utils.pin_memory.pin_memory(data)
        return data

class _DatasetKind(object):
    Map = 0
    Iterable = 1

    @staticmethod
    def create_fetcher(kind, dataset, auto_collation, collate_fn, drop_last):
        if kind == _DatasetKind.Map:
        	# 这里这里
            return _utils.fetch._MapDatasetFetcher(dataset, auto_collation, collate_fn, drop_last)
        else:
            return _utils.fetch._IterableDatasetFetcher(dataset, auto_collation, collate_fn, drop_last)

class _MapDatasetFetcher(_BaseDatasetFetcher):
    def __init__(self, dataset, auto_collation, collate_fn, drop_last):
        super(_MapDatasetFetcher, self).__init__(dataset, auto_collation, collate_fn, drop_last)

    def fetch(self, possibly_batched_index):
        if self.auto_collation:
            data = [self.dataset[idx] for idx in possibly_batched_index]
        else:
            data = self.dataset[possibly_batched_index]
        return self.collate_fn(data)  # 这里这里，调用了collate_fn做padding