-
1 基本映射方法
- 设计设备映射时,可以让Accelerate库来处理设备映射的计算
- 通过设置
device_map
为支持的选项之一("auto"、 "balanced"、 "balanced_low_0"、 "sequential");或者如果想更精确地控制每一层应该去哪里,也可以自己创建一个设备映射
"auto" 和 "balanced" | 在所有可用的GPU上均匀分配模型 |
"balanced_low_0" | 在除了第一个GPU之外的所有GPU上均匀分配模型,并且只有在其他GPU放不下时,才在GPU 0上放置内容 当你需要在生成 Transformers 模型的输出时使用GPU 0进行一些处理时,这个选项非常有用 |
"sequential" | 尽可能在GPU 0上放置内容,然后移动到GPU 1,依此类推(如果不需要,就不会使用最后的GPU) |
2 max_memory
- 在infer_auto_device_map中,通过使用
max_memory
参数来限制每个GPU上使用的内存 - 设置
max_memory
时,你应该