关于GPU推理速度的两个问题

最新推荐文章于 2025-03-21 18:23:43 发布

Silence_Zzz

最新推荐文章于 2025-03-21 18:23:43 发布

阅读量1w

点赞数 14

分类专栏：大白AI课程文章标签： python cuda gpu

本文链接：https://blog.csdn.net/qq_40231159/article/details/120901785

版权

大白AI课程专栏收录该内容

5 篇文章

订阅专栏

本文探讨了GPU在首次推理时速度较慢的原因，主要是由于CUDA初始化过程导致的额外时间开销。随着后续推理的进行，初始化已完成，速度显著提升。此外，文章指出，尽管GPU具有高算力，但单次小批量输入可能无法充分利用其并行计算能力，增加批大小能提高GPU利用率和运行速度。因此，合理调整数据输入方式对于优化GPU推理性能至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关于GPU推理速度的两个问题

1、为什么GPU的第一次推理速度会慢很多？

答：GPU在使用过程的开始，需要进行CUDA初始化（CUDA initialization），CUDA 初始化过程是一个"懒惰"的初始化，这意味着需要完成足够的初始化进程，才能支持所要的操作执行。在首次CUDA初始化时，有些初始化间接花费（cost）并没有进行，这些花费（cost）可以理解为设备和主机内存映射的协调，即内存的调度，这也是cpu和gpu都会有一定的内存（gpu为显存）变化的原因。表现出来的是虽然gpu的核心性能不如cpu，但是加载速度要和cpu持平，这意味着所需的表面上时间可能更短。这些初始化间接操作花费（cost）可能被吸收到操作中，而一些额外的初始化间接花费（cost）可能被吸收到后续操作中。
代码：

if __name__=='__main__':
    image=cv2.imread('./images/0.jpg')


    t_all1 = 0
    t_start = time.time()
    model_classify = ModelPipline()
    t_end = time.time()
    t_all1 += t_end - t_start
    print("加载模型时间：{}".format(t_all1))

    t_all2 = 0
    t_start = time.time()
    result = model_classify.predict(image)
    t_end = time.time()
    t_all2 += t_end - t_start
    print("第一次推理时间：{}".format(t_all2))


    t_all = 0
    for i in range(100):
        # 随机生成图片
        image = np.random.randint(0, 255, size=(224, 224, 3), dtype=np.uint8)
        t_start = time.time()
        result = model_classify.predict(image)
        t_end = time.time()
        t_all += t_end - t_start
    print("测试随机图片循环一百次时间：{}".format(t_all))

cpu推理速度：

cpu推理速度

gpu推理速度：

gpu推理速度

这是为什么后续的推理速度要远远小于第一次推理速度的原因。在首次推理过程中，仍然进行部分额外的初始化间接花费，需要消耗一定的时间，而后续在进行推理的时候，初始化已经完成，不再需要额外的时间消耗。

2、为什么GPU明明算力很高，但是运行速度却还是不快？

答：和CPU相比，GPU包含的更多是并行处理，即同时处理多个数据，而在我们的测试中，我们一次只输入一张图片，这时候如果查看显卡占用率（warps单元使用较少）的话，会发现占用率很低，这时候就很难发挥GPU的优势，假如同样100张图片，我们每次输出20张做为一个batch（显卡允许的情况下），这时候在看此时的显卡占用率，会发现它变高了，同时也会发现，运行速度要快了很多，这是因为20张图片是在同一时间进行并行计算的。
综上所述，我们可以发现使用GPU做深度学习的优势所在，在拥有高算力的设备的情况下，出现需要大规模的数据输入的时候，可以通过提高同时输入数据的数量，利用GPU的高并发计算，可以大幅度缩减计算时间，提高计算效率。