深度学习是当前人工智能技术的前沿方向。算力、数据和算法是深度学习技术的三大要素。在算力方面,深度学习尤其依赖GPU的加速。为满足用户的算力需求,人大校级公共云今年购置了多种GPU,包括Tesla V100、Titan RTX、RTX 2080 Ti。
本文主要讨论在共享集群上,使用调度系统Slurm提交深度学习任务。不涉及使用JupyterLab的交互模式。使用Slurm调度系统的优势:
- 一个用户可以提交多个作业任务,方便实验不同的参数。
- 可以使用多卡并行方式加速深度学习。
硬件资源情况
首先,我们先看看当前所提供的硬件情况。
Tesla V100 | Titan RTX | |
---|---|---|
显存 | 32GB | 24GB |
Tensor Core | 支持 | 支持 |
总线 | PCI-E | PCI-E |
队列名 | tesla | titan |
数量 | 3台 每台2卡 | 7台 每台2卡 |
对于深度学习任务,除了显卡性能,一个重要指标