Deepspeed使用

最新推荐文章于 2024-06-14 16:09:41 发布

淡水，

最新推荐文章于 2024-06-14 16:09:41 发布

阅读量790

点赞数 10

文章标签：深度学习 nlp

本文链接：https://blog.csdn.net/weixin_43013480/article/details/136076900

版权

最近在调试deepspeed进行训练，正好工作的项目中也用到了deepspeed，所以记录一下deepspeed的用法等。
pytorch 的DDP比较复杂，所以简单易用的deepspeed应运而生。
本文仍然是不完整的，随着学习将会持续更新内容。

Deepspeed使用

目前只使用过单机多卡的情况，故本文主要介绍单机多卡的使用。
尝试过类似命令行
deepspeed --num_gpus=2 your_program.py <normal cl args> --deepspeed ds_config.json
类似的方法，但是这样配置使用的GPU的时候会莫名报错，很麻烦，所以最终选择了如下的使用方法，简洁方便：
1、第一步是需要有一个deepspeed 的config文件，有很多策略，比如说zero2、zero3等，这里面参数很多，想具体看的话可以去官方文档详细学习，这里我就是用的一个zero3，一般是可以通用的配置：

{
    "bf16": {
        "enabled": "auto"
    },
    "optimizer": {
        "type": "AdamW",
        "params": {
            "lr": "auto",
            "betas": "auto",
            "eps": "auto",
            "weight_decay": "auto"
        }
    },

    "scheduler": {
        "type": "WarmupLR",
        "params": {
            "warmup_min_lr": "auto",
            "warmup_max_lr": "auto",
            "warmup_num_steps": "auto"
        }
    },

    "zero_optimization": {
        "stage": 3,
        "offload_optimizer": {
            "device": "cpu",
            "pin_memory": true
        },
        "offload_param": {
            "device": "cpu",
            "pin_memory": true
        },
        "overlap_comm": true,
        "contiguous_gradients": true,
        "sub_group_size": 1e9,
        "reduce_bucket_size": "auto",
        "stage3_prefetch_bucket_size": "auto",
        "stage3_param_persistence_threshold": "auto",
        "stage3_max_live_parameters": 1e9,
        "stage3_max_reuse_distance": 1e9,
        "stage3_gather_16bit_weights_on_model_save": true
    },

    "gradient_accumulation_steps": "auto",
    "gradient_clipping": "auto",
    "steps_per_print": 20,
    "train_batch_size": "auto",
    "train_micro_batch_size_per_gpu": "auto",
    "wall_clock_breakdown": false
}

2、在你的args里加入config：如下

TrainingArguments(..., deepspeed= "/path/to/ds_config.json" )

3、最后一步：
命令行中输入如下，就可以运行啦，其中的1,2代表你要使用的gpu

deepspeed --include localhost:1,2 train_lora.py

待更新。。。。。

淡水，

关注

10
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Deepspeed使用

最近在调试deepspeed进行训练，正好工作的项目中也用到了deepspeed，所以记录一下deepspeed的用法等。pytorch 的DDP比较复杂，所以简单易用的deepspeed应运而生。本文仍然是不完整的，随着学习将会持续更新内容。
复制链接

扫一扫