在2020年选择最佳的深度学习GPU

最新推荐文章于 2023-05-08 10:09:03 发布

孙琪翔

最新推荐文章于 2023-05-08 10:09:03 发布

阅读量600

点赞数

本文链接：https://blog.csdn.net/m0_37909240/article/details/107672992

版权

2020/07/29

最先进的（SOTA）深度学习模型具有大量的内存占用空间。许多GPU没有足够的VRAM来训练它们。在本文中，我们确定了哪些GPU可以训练最新的网络而不会引发内存错误。我们还将基准每个GPU的训练性能。

TLDR：

截至2020年2月，以下GPU可以训练所有SOTA语言和图像模型：

RTX 8000：48 GB VRAM，约5500美元。
RTX 6000：24 GB VRAM，〜$ 4,000。
Titan RTX：24 GB VRAM，约2,500美元。

以下GPU可以训练大多数（但不是全部）SOTA模型：

RTX 2080 Ti：11 GB VRAM，约1,150美元。*
GTX 1080 Ti：11 GB VRAM，约$ 800翻新。*
RTX 2080：8 GB VRAM，约720美元。*
RTX 2070：8 GB VRAM，约500美元。*

以下GPU不适合用于训练SOTA模型：

RTX 2060：6 GB VRAM，约359美元。

*在这些GPU上进行训练需要小批量，因此期望模型精度较低，因为模型的能量分布近似会受到影响。

Image models

Maximum batch size before running out of memory

Model / GPU	2060	2070	2080	1080 Ti	2080 Ti	Titan RTX	RTX 6000	RTX 8000
NasNet Large	4	8	8	8	8	32	32	64
DeepLabv3	2	2	2	4	4	8	8	16
Yolo v3	2	4	4	4	4	8	8	16
Pix2Pix HD	0*	0*	0*	0*	0*	1	1	2
StyleGAN	1	1	1	4	4	8	8	16
MaskRCNN	1	2	2	2	2	8	8	16

*The GPU does not have enough memory to run the model.

Performance, measured in images processed per second

Model / GPU	2060	2070	2080	1080 Ti	2080 Ti	Titan RTX	RTX 6000	RTX 8000
NasNet Large	7.3	9.2	10.9	10.1	12.9	16.3	13.9	15.6
DeepLabv3	4.4	4.82	5.8	5.43	7.6	9.01	8.02	9.12
Yolo v3	7.8	9.15	11.08	11.03	14.12	14.22	12.8	14.22
Pix2Pix HD	0.0*	0.0*	0.0*	0.0*	0.0*	0.73	0.71	0.71
StyleGAN	1.92	2.25	2.6	2.97	4.22	4.94	4.25	4.96
MaskRCNN	2.85	3.33	4.36	4.42	5.22	6.3	5.54	5.84

*The GPU does not have enough memory to run the model.

Language models

Maximum batch size before running out of memory

Model / GPU	Units	2060	2070	2080	1080 Ti	2080 Ti	Titan RTX	RTX 6000	RTX 8000
Transformer Big	Tokens	0*	2000	2000	4000	4000	8000	8000	16000
Conv. Seq2Seq	Tokens	0*	2000	2000	3584	3584	8000	8000	16000
unsupMT	Tokens	0*	500	500	1000	1000	4000	4000	8000
BERT Base	Sequences	8	16	16	32	32	64	64	128
BERT Finetune	Sequences	1	6	6	6	6	24	24	48
MT-DNN	Sequences	0*	1	1	2	2	4	4	8

*The GPU does not have enough memory to run the model.

Performance

Model / GPU	Units	2060	2070	2080	1080 Ti	2080 Ti	Titan RTX	RTX 6000	RTX 8000
Transformer Big	Words/sec	0*	4597	6317	6207	7780	8498	7407	7507
Conv. Seq2Seq	Words/sec	0*	7721	9950	5870	15671	21180	20500	22450
unsupMT	Words/sec	0*	1010	1212	1824	2025	3850	3725	3735
BERT Base	Ex./sec	34	47	58	60	83	102	98	94
BERT Finetue	Ex./sec	7	15	18	17	22	30	29	27
MT-DNN	Ex./sec	0*	3	4	8	9	18	18	28

*The GPU does not have enough memory to run the model.

结果由Quadro RTX 8000标准化

Results normalized by Quadro RTX 8000

图2.针对Quadro RTX 8000标准化的训练吞吐量。

上：image models。下：Language models.。

结论

语言模型比图像模型受益于更大的GPU内存。注意右图比左图陡。这表明语言模型受内存限制更大，而图像模型受计算限制更大。
具有较高VRAM的GPU具有更好的性能，因为使用较大的批处理大小有助于使CUDA内核饱和。
具有更高VRAM的GPU可按比例实现更大的批处理大小。信封后的计算得出合理的结果：具有24 GB VRAM的GPU可以比具有8 GB VRAM的GPU容纳大约3倍的批处理。
对于长序列，语言模型不成比例地占用大量内存，因为注意力集中在序列长度上。

GPU建议

RTX 2060（6 GB）：如果您想在业余时间探索深度学习。
RTX 2070或2080（8 GB）：如果您认真研究深度学习，但GPU预算为$ 600-800。八GB的VRAM可适合大多数型号。
RTX 2080 Ti（11 GB）：如果您认真研究深度学习并且您的GPU预算约为1200美元。RTX 2080 Ti比RTX 2080快40％。
Titan RTX和Quadro RTX 6000（24 GB）：如果您正在广泛使用SOTA模型，但没有足够的预算用于RTX 8000提供的面向未来的证明。
Quadro RTX 8000（48 GB）：您正在投资未来，甚至可能有幸在2020年研究SOTA深度学习。

Footnotes

Image Models

Model	Task	Dataset	Image Size	Repo
NasNet Large	Image Classification	ImageNet	331x331	Github
DeepLabv3	Image Segmentation	PASCAL VOC	513x513	GitHub
Yolo v3	Object Detection	MSCOCO	608x608	GitHub
Pix2Pix HD	Image Stylization	CityScape	2048x1024	GitHub
StyleGAN	Image Generation	FFHQ	1024x1024	GitHub
MaskRCNN	Instance Segmentation	MSCOCO	800x1333	GitHub

Language Models

Model	Task	Dataset	Repo
Transformer Big	Supervised machine translation	WMT16_en_de	GitHub
Conv. Seq2Seq	Supervised machine translation	WMT14_en_de	GitHub
unsupMT	Unsupervised machine translation	NewsCrawl	GitHub
BERT Base	Language modeling	enwik8	GitHub
BERT Finetune	Question and answer	SQUAD 1.1	GitHub
MT-DNN	GLUE	GLUE	GitHub

老规矩还是给大家介绍一下租用GPU做实验的方法，我们是在智星云租用的GPU，使用体验很好。具体大家可以参考：智星云官网： http://www.ai-galaxy.cn/，淘宝店：https://shop36573300.taobao.com/公众号: 智星AI，

参考文献：

https://lambdalabs.com/blog/choosing-a-gpu-for-deep-learning/

孙琪翔

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
在2020年选择最佳的深度学习GPU

2020/07/29最先进的（SOTA）深度学习模型具有大量的内存占用空间。许多GPU没有足够的VRAM来训练它们。在本文中，我们确定了哪些GPU可以训练最新的网络而不会引发内存错误。我们还将基准每个GPU的训练性能。TLDR：截至2020年2月，以下GPU可以训练所有SOTA语言和图像模型：RTX 8000：48 GB VRAM，约5500美元。 RTX 6000：24 GB VRAM，〜$ 4,000。 Titan RTX：24 GB VRAM，约2,500美元。以...
复制链接

扫一扫