FSDP（Fully Sharded Data Parallel）是一种在分布式训练中常用的技术，特别是在处理非常大规模的深度学习模型时

背太阳的牧羊人

已于 2025-01-22 11:17:26 修改

阅读量356

点赞数 8

分类专栏：模型微调文章标签：分布式深度学习人工智能

于 2025-01-21 16:24:57 首次发布

本文链接：https://blog.csdn.net/u013565133/article/details/145285808

版权

模型微调专栏收录该内容

51 篇文章

订阅专栏

FSDP（Fully Sharded Data Parallel）是一种在分布式训练中常用的技术，特别是在处理非常大规模的深度学习模型时。它属于 PyTorch 中的分布式训练技术之一，旨在通过将模型参数拆分并分配到不同的设备上，以减少显存使用并提高计算效率。

FSDP 的核心思想：

完全分片（Fully Sharded）：
- 在传统的分布式训练中，每个设备存储和更新所有模型的参数（如权重）。而在 FSDP 中，模型的参数被“分片”到多个设备上，每个设备只存储自己需要的部分参数。这样每个设备的显存消耗会更少，允许训练更大的模型。
数据并行：
- 类似于数据并行，FSDP 会在多个设备之间复制模型的计算和数据分配。每个设备会计算不同数据的梯度，然后进行同步（通常是通过 All-Reduce 技术）以确保每个设备的参数一致。
减少显存消耗：
- 由于每个设备只存储部分参数和梯度，FSDP 可以显著减少每个设备的显存占用，使得能够训练更大的模型。
梯度计算和更新：
- 每个设备计算自己的梯度，并在同步后更新其本地模型参数。FSDP 会在每次梯度更新时将不同设备的梯度进行合并。

FSDP 的优势：

显存效率：
- 由于每个设备只存储模型的一部分，它减少了内存使用，允许训练比单台设备显存更多的模型。
支持大规模训练：
- 对于非常大的神经网络（比如大型语言模型或图像生成模型），传统的模型训练方法可能因为显存限制而无法进行，而 FSDP 可以帮助解决这一问题。
加速训练：
- 通过分布式训练，FSDP 可以在多台机器或者多张 GPU 上并行训练，大大加速训练过程。

FSDP 的使用场景：

FSDP 适用于以下场景：

大模型训练：当训练的模型非常大，以至于单个设备无法容纳时，FSDP 是一个合适的解决方案。
分布式训练：当你需要在多个 GPU 上训练模型时，FSDP 能够有效地分配参数并减少显存使用。
节省显存：对于显存较小的设备，FSDP 可以帮助分摊模型参数的存储需求，使得可以训练大模型。

FSDP 的代码示例：

import torch
import torch.distributed as dist
from torch.distributed.fsdp import FullyShardedDataParallel as FSDP
from torch import nn

# 假设一个简单的模型
class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.linear = nn.Linear(10, 10)

    def forward(self, x):
        return self.linear(x)

# 初始化分布式环境
dist.init_process_group(backend='nccl')

# 创建模型并包裹在 FSDP 中
model = MyModel().to(device)
fsdp_model = FSDP(model)

# 定义优化器和损失函数
optimizer = torch.optim.Adam(fsdp_model.parameters())
criterion = nn.MSELoss()

# 训练过程
def train():
    # 假设有一个数据加载器
    for data, target in data_loader:
        optimizer.zero_grad()
        output = fsdp_model(data)
        loss = criterion(output, target)
        loss.backward()
        optimizer.step()