1080T、2080T、4070T显卡的深度学习性能测试和结论

⊙月

已于 2023-07-14 11:08:21 修改

阅读量1.3w

点赞数 5

分类专栏：开阔见识文章标签：深度学习 pytorch python

于 2023-02-24 10:06:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42118657/article/details/129194881

版权

开阔见识专栏收录该内容

4 篇文章

订阅专栏

本文更新地址：4070Ti、4090显卡的深度学习性能测试和结论 - 哔哩哔哩

先说结论：

4070T显卡FP32的训练和推理速度跟3090应该基本类似。但由于显存12G偏低，4070T不太适合如今的深度学习模型训练（新手列外，大部分模型都能训练起来，耗电也相对很低），更适合测试最新的一些算法效果（只用推理）。

环境：

pytorch环境：conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.6 -c pytorch -c conda-forge

测试代码：霹雳吧啦Wz的GitHub中的swin-L和FastRCNN。

深度学习模型个人测试结果

swin-L模型单位是图像/秒，FastRCNN模型单位是秒/图像

备注1：主流显卡的测评分

备注2：其他显卡的测试性能（SSD模型，FP32训练）

备注3：另一个网站上的综合评分

备注4：各类GPU的FP16和FP8训练和推理性能

感觉备注4和我真实测试的有较大差异，FP16的训练，4070ti竟然和2080Ti几乎一样，不知道为什么作者会得出此结论。

个人总结

timespy 4K跑分非常适合深度学习性能评估：作为经过本人验证，4070ti的深度学习性能（FP32训练和推理）相对1080T和2080T显卡的差异，几乎跟time spy 4K跑分差异几乎一致。至于FP16和FP8，还未测试。
操作系统基本不影响显卡深度学习性能：Ubuntu 22.04和win11系统下，4070ti的训练和推理速度几乎一模一样。
12G显存是硬伤：4070T相对3090速度上并不差，只是显存12G真的是硬伤，分类网络swin-L的batchsize都只能设为8（图像224*224）。

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。