torch.cuda.synchronize()同步统计pytorch调用cuda运行时间

之前发现算法处理完的tensor从gpu转到cpu很耗时,一直找不到解决方法,后面看到有人说测试时间要先同步。

torch.cuda.synchronize()
start = time.time()
result = model(input)
torch.cuda.synchronize()
end = time.time()

才发现耗时的不是这个转换过程
这是因为CUDA kernel函数是异步的,所以不能直接在CUDA函数两端加上time.time()测试时间,这样测出来的只是调用CUDA api的时间,不包括GPU端运行的时间。
我们需要加上线程同步函数,等待kernel中所有线程全部执行完毕再执行CPU端后续指令。上面代码我们将同步指令加在了python端,用的是torch.cuda.synchronize函数。
其中第一次同步是为了防止前面的代码中有未同步还在GPU端运行的指令,第二次同步就是为了等result = model(input)所有线程执行完毕后再统计时间。
关于同步和异步的区别,参考下面两图
在这里插入图片描述
同步执行当调用方法执行完成后并返回结果,才能执行后续代码。

异步调用的话可参考ajax,调用方法后不会等到sum方法执行完成,而是直接执行后续代码。sum方法执行完成后主要通过状态通知主线程,或者通过回调处理这次异步方法执行的结果。
在这里插入图片描述

版权声明:本文为CSDN博主「Stars-Chan」的原创文章
原文链接:https://blog.csdn.net/weixin_44942126/article/details/117605711
参考链接:
pytorch 正确的测试时间的代码 torch.cuda.synchronize()
PyTorch自定义CUDA算子教程与运行时间分析
同步(Synchronous)和异步(Asynchronous)

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值