GeForce RTX 3090深度学习测评
环境踩坑
- 八卡GeForce RTX 3090+Pytorch1.7+cuda11.1+对应cudnn
- pytorch 1.7以下版本无法对显卡写入数据
- tensorflow未尝试 据别的文章说只有nightly支持
- 驱动如下:
NVIDIA-SMI 455.23.05
Driver Version: 455.23.05
CUDA Version: 11.1
环境是conda直接安装
测试速度
- 用一台8卡2080Ti的服务器作对比,除了环境以外代码和数据集相同。
- 用脉冲残差神经网络,spike-ResNet18做对比(这个网络非常吃显存,可以把8卡2080Ti跑满)
- 采用分布式学习
2080Ti 19分48s跑了849个batch,每个batch是20个样本(8*20=160)
3090 19分23s跑了799个batch,每个batch是20个样本(8*20=160)
【待更新,等跑几个epoch回来】
结论
- 3090的速度受到环境限制可能未必能超过之前的中高端显卡
- 一个潜在的可能性是我使用的实验环境上,两台服务器的架构不太一样,2080Ti服务器多卡通讯效率更高一些
- 师兄的实验:单卡3090甚至也比2080Ti更慢一些
- 进一步怀疑是不是因为编程框架太新优化不够好,CUDA的测例网上已经有很多,都认为3090快得多
- 更进一步怀疑是不是散热的问题,tf的实验还有待更新