在2020年选择最佳的深度学习GPU

 

2020/07/29

最先进的(SOTA)深度学习模型具有大量的内存占用空间。许多GPU没有足够的VRAM来训练它们。在本文中,我们确定了哪些GPU可以训练最新的网络而不会引发内存错误。我们还将基准每个GPU的训练性能。

 

TLDR:

截至2020年2月,以下GPU可以训练所有SOTA语言和图像模型:

  • RTX 8000:48 GB VRAM,约5500美元。
  • RTX 6000:24 GB VRAM,〜$ 4,000。
  • Titan RTX:24 GB VRAM,约2,500美元。

以下GPU可以训练大多数(但不是全部)SOTA模型:

  • RTX 2080 Ti:11 GB VRAM,约1,150美元。*
  • GTX 1080 Ti:11 GB VRAM,约$ 800翻新。*
  • RTX 2080:8 GB VRAM,约720美元。*
  • RTX 2070:8 GB VRAM,约500美元。*

以下GPU不适合用于训练SOTA模型:

  • RTX 2060:6 GB VRAM,约359美元。

*在这些GPU上进行训练需要小批量,因此期望模型精度较低,因为模型的能量分布近似会受到影响。

 

Image models

Maximum batch size before running out of memory

 

Model / GPU

2060

2070

2080

1080 Ti

2080 Ti

Titan RTX

RTX 6000

RTX 8000

NasNet Large

4

8

8

8

8

32

32

64

DeepLabv3

2

2

2

4

4

8

8

16

Yolo v3

2

4

4

4

4

8

8

16

Pix2Pix HD

0*

0*

0*

0*

0*

1

1

2

StyleGAN

1

1

1

4

4

8

8

16

MaskRCNN

1

2

2

2

2

8

8

16

*The GPU does not have enough memory to run the model.

Performance, measured in images processed per second

 

Model / GPU

2060

2070

2080

1080 Ti

2080 Ti

Titan RTX

RTX 6000

RTX 8000

NasNet Large

7.3

9.2

10.9

10.1

12.9

16.3

13.9

15.6

DeepLabv3

4.4

4.82

5.8

5.43

7.6

9.01

8.02

9.12

Yolo v3

7.8

9.15

11.08

11.03

14.12

14.22

12.8

14.22

Pix2Pix HD

0.0*

0.0*

0.0*

0.0*

0.0*

0.73

0.71

0.71

StyleGAN

1.92

2.25

2.6

2.97

4.22

4.94

4.25

4.96

MaskRCNN

2.85

3.33

4.36

4.42

5.22

6.3

5.54

5.84

*The GPU does not have enough memory to run the model.

 

Language models

Maximum batch size before running out of memory

 

Model / GPU

Units

2060

2070

2080

1080 Ti

2080 Ti

Titan RTX

RTX 6000

RTX 8000

Transformer Big

Tokens

0*

2000

2000

4000

4000

8000

8000

16000

Conv. Seq2Seq

Tokens

0*

2000

2000

3584

3584

8000

8000

16000

unsupMT

Tokens

0*

500

500

1000

1000

4000

4000

8000

BERT Base

Sequences

8

16

16

32

32

64

64

128

BERT Finetune

Sequences

1

6

6

6

6

24

24

48

MT-DNN

Sequences

0*

1

1

2

2

4

4

8

*The GPU does not have enough memory to run the model.

Performance

 

Model / GPU

Units

2060

2070

2080

1080 Ti

2080 Ti

Titan RTX

RTX 6000

RTX 8000

Transformer Big

Words/sec

0*

4597

6317

6207

7780

8498

7407

7507

Conv. Seq2Seq

Words/sec

0*

7721

9950

5870

15671

21180

20500

22450

unsupMT

Words/sec

0*

1010

1212

1824

2025

3850

3725

3735

BERT Base

Ex./sec

34

47

58

60

83

102

98

94

BERT Finetue

Ex./sec

7

15

18

17

22

30

29

27

MT-DNN

Ex./sec

0*

3

4

8

9

18

18

28

 

*The GPU does not have enough memory to run the model.

 

结果由Quadro RTX 8000标准化

 

Results normalized by Quadro RTX 8000

 

 

图2.针对Quadro RTX 8000标准化的训练吞吐量。

上:image models。下:Language models.

 

结论

  • 语言模型比图像模型受益于更大的GPU内存。注意右图比左图陡。这表明语言模型受内存限制更大,而图像模型受计算限制更大。
  • 具有较高VRAM的GPU具有更好的性能,因为使用较大的批处理大小有助于使CUDA内核饱和。
  • 具有更高VRAM的GPU可按比例实现更大的批处理大小。信封后的计算得出合理的结果:具有24 GB VRAM的GPU可以比具有8 GB VRAM的GPU容纳大约3倍的批处理。
  • 对于长序列,语言模型不成比例地占用大量内存,因为注意力集中在序列长度上。

 

GPU建议

  • RTX 2060(6 GB):如果您想在业余时间探索深度学习。
  • RTX 2070或2080(8 GB):如果您认真研究深度学习,但GPU预算为$ 600-800。八GB的VRAM可适合大多数型号。
  • RTX 2080 Ti(11 GB):如果您认真研究深度学习并且您的GPU预算约为1200美元。RTX 2080 Ti比RTX 2080快40%。
  • Titan RTX和Quadro RTX 6000(24 GB):如果您正在广泛使用SOTA模型,但没有足够的预算用于RTX 8000提供的面向未来的证明。
  • Quadro RTX 8000(48 GB):您正在投资未来,甚至可能有幸在2020年研究SOTA深度学习。

 

 

Footnotes

Image Models

 

Model

Task

Dataset

Image Size

Repo

NasNet Large

Image Classification

ImageNet

331x331

Github

DeepLabv3

Image Segmentation

PASCAL VOC

513x513

GitHub

Yolo v3

Object Detection

MSCOCO

608x608

GitHub

Pix2Pix HD

Image Stylization

CityScape

2048x1024

GitHub

StyleGAN

Image Generation

FFHQ

1024x1024

GitHub

MaskRCNN

Instance Segmentation

MSCOCO

800x1333

GitHub

Language Models

 

Model

Task

Dataset

Repo

Transformer Big

Supervised machine translation

WMT16_en_de

GitHub

Conv. Seq2Seq

Supervised machine translation

WMT14_en_de

GitHub

unsupMT

Unsupervised machine translation

NewsCrawl

GitHub

BERT Base

Language modeling

enwik8

GitHub

BERT Finetune

Question and answer

SQUAD 1.1

GitHub

MT-DNN

GLUE

GLUE

GitHub

老规矩还是给大家介绍一下租用GPU做实验的方法,我们是在智星云租用的GPU,使用体验很好。具体大家可以参考:智星云官网: http://www.ai-galaxy.cn/,淘宝店:https://shop36573300.taobao.com/公众号: 智星AI,

参考文献:

https://lambdalabs.com/blog/choosing-a-gpu-for-deep-learning/

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值