pytorch 自定义forward loss运算cpu占用高在gpu上加速

最新推荐文章于 2023-07-01 10:46:54 发布

cycyco

最新推荐文章于 2023-07-01 10:46:54 发布

阅读量1.3k

点赞数 3

分类专栏：深度学习文章标签： pytorch 深度学习 python

本文链接：https://blog.csdn.net/qq_38591130/article/details/125718477

版权

深度学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

直接在gpu上定义tensor而减少cpu到gpu的copy!!!

问题

为了实现复杂的网络结构和损失函数，自定义forward和loss的计算，发现cpu占用很高，挂了几个训练就占满了所有cpu。
把运算都用.to(device)放到gpu上运算，发现还是cpu占用高，并且有更慢的趋势。用性能分析工具分析发现是aten::_to_copy aten::copy_cpu占用时间率高。

分析

为了验证是使用了.to(device)导致的，编写了程序，对比.to('cuda')和直接定义torch.tensor([],device='cuda')，发现torch.tensor([],device='cuda')时gpu利用率接近100%，而.to('cuda')gpu利用率还不到20%。

结论

直接在gpu上定义变量torch.tensor([],device='cuda')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

cycyco

关注关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
pytorch 自定义forward loss运算cpu占用高在gpu上加速

直接在gpu上定义tensor而减少cpu到gpu的copy!!!为了实现复杂的网络结构和损失函数，自定义forward和loss的计算，发现cpu占用很高，挂了几个训练就占满了所有cpu。把运算都用放到gpu上运算，发现还是cpu占用高，并且有更慢的趋势。用性能分析工具分析发现是 cpu占用时间率高。为了验证是使用了导致的，编写了程序，对比和直接定义，发现时gpu利用率接近100%，而gpu利用率还不到20%。直接在gpu上定义变量...
复制链接

扫一扫