Megatron-Deepspeed 预训练 GPT-小白踩坑与解决

Megatron-Deepspeed 预训练 GPT-小白踩坑与解决

记录在使用 megatron deepspeed 训练大模型 gpt 时,遇到的坑

1. 成功运行的最终步骤

1.1 配置分布式环境:

1.1.1 硬件配置:

3090 单机四卡

root@xxxx:/workspace# nvidia-smi -L
GPU 0: NVIDIA GeForce RTX 3090 (UUID: GPU-xxxx)
GPU 1: NVIDIA GeForce RTX 3090 (UUID: GPU-xxxx)
GPU 2: NVIDIA GeForce RTX 3090 (UUID: GPU-xxxx)
GPU 3: NVIDIA GeForce RTX 3090 (UUID: GPU-xxxx)
1.1.2 基础配置:
  • 1.1.2.1 拉取 nvidia 的 docker 镜像,通过命令:
    其中参数 --shm-size 在训练大模型的 TP(模型并行) 和 PP(流水并行) 特别重要,xxxx 是自己选择的 nvidia docker 的版本,通过在官网选择合适的填入,例如 21.07

    docker run --gpus all -it --rm --runtime=nvidia --shm-size=16g --ulimit memlock=-1 --privileged --net host nvcr.io/nvidia/pytorch:21.09-py3
    
  • 1.1.2.2 下载各种包,reference:https://github.com/bigscience-workshop/Megatron-DeepSpeed

    # 基础包
    git clone https://github.com/bigscience-workshop/Megatron-DeepSpeed
    cd Megatron-DeepSpeed
    pip install -r requirements.txt
    
    # 可恶的 apex 包,由于在 docker 环境里,所以安装不会有问题
    git clone https://github.com/NVIDIA/apex
    cd apex
    pip install --global-option="--cpp_ext" --global-option="--cuda_ext" --no-cache -v --disable-pip-version-check .  2>&1 | tee build.log
    
    
    # 安装 deepspeed 
    git clone https://github.com/microsoft/deepspeed
    cd deepspeed
    rm -rf build
    TORCH_CUDA_ARCH_LIST
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值