【Hugging Face】 Accelerate 库：简化深度学习模型在多 GPU、TPU 和分布式环境中的训练和推理

最新推荐文章于 2025-04-19 13:03:57 发布

彬彬侠

最新推荐文章于 2025-04-19 13:03:57 发布

阅读量877

点赞数 7

分类专栏： Hugging Face 文章标签： Accelerate transformers Hugging Face PyTorch 分布式深度学习

本文链接：https://blog.csdn.net/u013172930/article/details/146102582

版权

Hugging Face 专栏收录该内容

66 篇文章

订阅专栏

Hugging Face Accelerate 库

Accelerate 是 Hugging Face 提供的一个 轻量级库，用于 简化深度学习模型在多 GPU、TPU 和分布式环境中的训练和推理。它能够无缝集成 PyTorch 和 transformers，大大降低了分布式训练的复杂性。

1. 为什么使用 Accelerate？

在 PyTorch 中，如果想要在多个 GPU 进行训练，通常需要手动编写 torch.nn.DataParallel 或 torch.nn.parallel.DistributedDataParallel (DDP)，这涉及到复杂的 进程管理、梯度同步、数据加载 等问题。

而 Accelerate 封装了这些底层逻辑，只需要少量代码修改，就能让模型支持 单 GPU、多 GPU、TPU、甚至多机训练。

与 PyTorch DDP 的对比

方式	代码复杂度	多 GPU 训练	TPU 训练	混合精度
PyTorch DDP	高	需要手动管理	需要额外处理	需要 `torch.cuda.amp`
Accelerate	低	自动管理	自动支持	一行代码即可启用

2. 安装 Accelerate

可以直接使用 pip 安装：

pip install accelerate

安装后，运行配置命令：

accelerate config

它会询问几个问题，例如：

In which compute environment are you running? [1] This machine
Which type of distributed training backend are you using? [1] NO DISTRIBUTED TRAINING
Do you want to use FP16 or BF16? [1] No

根据你的训练环境选择合适的设置。

3. 主要功能

Accelerate 提供了以下核心功能：

自动管理设备（CPU、GPU、TPU）
自动处理分布式训练（DDP）
支持梯度累积（gradient accumulation）
混合精度训练（FP16/BF16）
优化数据加载
轻松集成 PyTorch 和 transformers
多机多卡支持

4. Accelerate 基本用法

4.1. 自动检测 GPU/TPU

from accelerate import Accelerator

accelerator = Accelerator()
device = accelerator.device

print(f"Using device: {device}")

如果有 GPU，输出：

Using device: cuda

如果只有 CPU，输出：

Using device: cpu

4.2. 在单 GPU 和多 GPU 之间切换

如果你用 PyTorch 直接训练：

import torch

model = MyModel()
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

使用 Accelerate：

from accelerate import Accelerator

accelerator = Accelerator()
model = MyModel()
model = accelerator.prepare(model)

这样，无论是 单 GPU、多 GPU 还是 TPU，代码都可以无缝运行。

4.3. 处理数据并行

通常，在 PyTorch 的 DDP 中，你需要手动处理 DataLoader：

from torch.utils.data import DataLoader

train_dataloader = DataLoader(dataset, batch_size=8, shuffle=True)

使用 Accelerate：

from accelerate import Accelerator

accelerator = Accelerator()
train_dataloader = accelerator.prepare(train_dataloader)

这样，Accelerate 会自动 均匀地分配数据到多个 GPU，无需手动处理 DistributedSampler。

4.4. 训练循环

一个完整的 PyTorch 训练循环通常如下：

import torch

model = MyModel().to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=3e-5)

for epoch in range(10):
    for batch in train_dataloader:
        inputs, labels = batch
        inputs, labels = inputs.to(device), labels.to(device)
        
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = loss_fn(outputs, labels)
        loss.backward()
        optimizer.step()

使用 Accelerate：

from accelerate import Accelerator

accelerator = Accelerator()

model = MyModel()
optimizer = torch.optim.Adam(model.parameters(), lr=3e-5)
train_dataloader = accelerator.prepare(train_dataloader)
model, optimizer = accelerator.prepare(model, optimizer)

for epoch in range(10):
    for batch in train_dataloader:
        inputs, labels = batch
        outputs = model(inputs)
        loss = loss_fn(outputs, labels)

        accelerator.backward(loss)
        optimizer.step()
        optimizer.zero_grad()

Accelerate 会自动 优化设备放置、处理 DDP、混合精度。

4.5. 混合精度训练

启用 FP16 训练，只需要：

accelerator = Accelerator(fp16=True)

相比于 PyTorch 需要手动管理：

scaler = torch.cuda.amp.GradScaler()
with torch.cuda.amp.autocast():
    outputs = model(inputs)
    loss = loss_fn(outputs, labels)

scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()

Accelerate 只需：

accelerator.backward(loss)

它会 自动管理 AMP 训练。

5. 与 transformers 结合

如果你在 transformers 里用 Trainer，它已经内置了 Accelerate，但如果你自己写训练循环，可以手动加速。

from transformers import AutoModelForSequenceClassification, AutoTokenizer
from accelerate import Accelerator

accelerator = Accelerator()

model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

model = accelerator.prepare(model)

inputs = tokenizer("Hugging Face is great!", return_tensors="pt")
inputs = {k: v.to(accelerator.device) for k, v in inputs.items()}

outputs = model(**inputs)
print(outputs.logits)

6. 多机训练

如果你在 多机（多服务器）上训练，只需：

accelerate launch --multi_gpu train.py

或：

accelerate launch --num_processes=4 train.py

这样 Accelerate 会自动管理进程，无需手动编写 torch.distributed.launch 代码。

7. 什么时候应该使用 Accelerate？

多 GPU 训练：自动处理数据分布，不需要手动写 DDP 代码。
TPU 训练：自动支持 TPU，无需修改代码。
混合精度训练：自动管理 FP16，减少显存占用，加快训练速度。
多机多 GPU 训练：轻松扩展到多台机器。
与 transformers 结合：如果不想用 Trainer，但仍希望使用多 GPU 训练。

8. 总结

Accelerate 是 Hugging Face 提供的高效训练库，简化了分布式训练、混合精度和设备管理。
它可以自动适配单 GPU、多 GPU、TPU 训练，无需手动编写复杂的 DDP 代码。
支持 PyTorch 和 transformers，可以轻松集成到自定义训练循环。
适用于所有需要高效训练的深度学习项目，尤其是大规模模型训练。