deepspeed中all_to_all_single方法原理

本文介绍了如何使用DeepSpeed库中的_all_to_all函数在单机多GPU环境中进行进程间的全连接通信,数据按进程rank顺序在指定设备上聚合。实验展示了如何在4张GPU卡上实现数据的本地汇聚。
摘要由CSDN通过智能技术生成
from torch import Tensor
from deepspeed import comm as dist
from typing import Callable, Dict, TYPE_CHECKING, Any
class _AllToAll(torch.autograd.Function):
    @staticmethod
    def forward(
            ctx: Any,
            # TODO: replace with DS process group
            group: torch.distributed.ProcessGroup,
            input: Tensor) -> Tensor:  # type: ignore
        ctx.group = group
        input = input.contiguous()
        output = torch.empty_like(input)
        dist.all_to_all_single(output, input, group=group)
        return output

    @staticmethod
    def backward(ctx: Any, *grad_output: Tensor) -> Tuple[None, Tensor]:
        return (None, _AllToAll.apply(ctx.group, *grad_output))
    
if __name__ == "__main__":
    deepspeed.init_distributed()
    from deepspeed.utils import groups
    expert_group_name = "ep_size_4"
    groups._create_expert_and_data_parallel(4)
    ep = groups._get_expert_parallel_group(expert_group_name)
    rank = torch.distributed.get_rank()
    device_id = rank % torch.cuda.device_count()
    device = torch.device(device_id)
    inputs = torch.randn((4,1,1)).to(device)
    
    for i in range(4):
        if rank==i:
            print("rank:%d,input:"%(rank),inputs)
        torch.distributed.barrier()
    output = _AllToAll.apply(ep,inputs)
    print("rank:%d,output:"%(rank),output)
    torch.distributed.barrier()

运行命令:

deepspeed --include="localhost:1,2,3,4" --master_port 65535 test.py 

这是在单机多卡上的实验(此处只用到4张卡),一句话解释,就是按照rank顺序,将所有进程中的第rank行数据汇聚到第rank卡上(output就是最后汇聚的结果)

  • 7
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值