其实在Pytorch中并不是在任何情况下把数据放到GPU下就能训练效率,减少训练时间。
下面举个例子:
import torch import time print(torch.cuda.is_available()) print(torch.cuda.current_device()) ###CPU start_time = time.time() a = torch.ones(5,5) for _ in range(1000000): a += a elapsed_time = time.time() - start_time print('CPU time = ',elapsed_time) ###GPU start_time = time.time() b = torch.ones(5,5).cuda() for _ in range(1000000): b += b elapsed_time = time.time() - start_time print('GPU time = ',elapsed_time)
运行结果:
True
0
CPU time = 1.8500258922576904
GPU time = 8.387852907180786
Process finished with exit code 0
可以看出CPU运行的速度比GPU快很多,这是什么原因呢?
其实,这是由于GPU加速通过大量的计算并行化来工作.即使同步计算,然而在上面的例子同步计算只有矩阵中25个元素,对于for循环而言,必须知道前一个时候值才能进行下一时刻值的计算,所以并不能实现并行计算。
但是如果改变张量的大小,事情会发生变化,那么PyTorch能够并行化更多的整体计算.我将迭代更改为500的值,结果如下:
True
0
CPU time = 22.1019504070282
GPU time = 86.17750453948975
Process finished with exit code 0
可以看出当为当为5×5的时候CPU为GPU的大约4.5倍,当为500×500时只有3.89倍,这里可以更改为更大的值你就会发现GPU的效果了,所以以后知道什么时候用CPU,什么时候用GPU了吧。