Deepspeed 环境参数分享

文章讲述了在使用Deepspeed时遇到的问题,尤其是在CentOS7系统中,由于conda安装的不兼容导致错误。作者提供了详细的步骤,包括手动安装CUDA12.2和CUDNN8.9.2,以及配置环境变量以确保与PyTorch2.1.2和Python3.9.16的兼容性。
摘要由CSDN通过智能技术生成

Deepspeed环境对torch, CUDA和CUDNN比较敏感, 如果不匹配会遇到很多奇怪问题, 下边分享一个经过验证的环境

操作系统: Centos7
python: 3.9.16
pytorch: 2.1.2
cuda: 12.2
cudnn: 8.9.2

cuda和cudnn分享到了百度网盘:

链接: https://pan.baidu.com/s/1TbwfNNUKd1l0AMsM-XGiVA 提取码: aw5e 

# 1. 安装 cuda
sudo sh cuda_12.2.2_535.104.05_linux.run

# 2. 安装 cudnn
tar -xf cudnn-linux-x86_64-8.9.2.26_cuda12-archive.tar.xz

cd cudnn-linux-x86_64-8.9.2.26_cuda12-archive

cp include/cudnn.h /usr/local/cuda-12.2/include

cp lib/libcudnn* /usr/local/cuda-12.2/lib64

chmod a+r /usr/local/cuda-12.2/include/cudnn.h /usr/local/cuda-12.2/lib64/libcudnn*

# 3. 配置环境变量
vim ~/.bashrc

在最后添加如下内容
export CUDA_HOME=/usr/local/cuda-12.2
export PATH=/usr/local/cuda-12.2/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-12.2/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

一些总结:

1. 使用conda安装的cuda和cudnn虽然可以跑一般的训练, 但是使用deepspeed框架时还是会报一些奇怪的错误, 比如:Error building extension 'cpu_adam',

 AttributeError:'DeepSpeedCPUAdam' object has no attribute 'ds_opt_adam', 

尝试了更换gcc版本不好使, 最后只能下载cuda和cudnn手动安装, 安装后实测可用 

2. python3.9.16 搭配 torch2.0.0, cuda11.7 不好使, 手动安装cuda也不行

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
DeepSpeed命令参数是指在启动容器时使用的命令参数,用于配置DeepSpeed库和Megatron-Deepspeed的相关设置。根据引用的内容,以下是DeepSpeed命令参数的解释: - -d: 启用后台模式 (detached mode),容器将在后台运行。 - -t: 分配一个伪终端 (pseudo-TTY),使得用户可以与容器进行交互。 - --network=host: 使用主机网络模式,容器将共享主机的网络命名空间。 - --gpus all: 分配所有可用的GPU给容器使用。 - --privileged: 赋予容器完全的特权,使其可以访问主机的设备。 - --ipc=host: 使用与主机共享的IPC命名空间,用于进程间通信。 - --ulimit memlock=-1: 设置内存锁定的限制为无限制,以防止内存被交换出去。 - --ulimit stack=67108864: 设置栈的限制为67108864字节,用于控制进程的栈空间。 - --name megatron-deepspeed: 为容器指定一个名称。 - -v /etc/localtime:/etc/localtime: 将主机的时区信息挂载到容器内部,以保持时间同步。 - -v /root/.ssh:/root/.ssh: 将主机的SSH配置目录挂载到容器内部,以便容器可以访问SSH密钥。 - nvcr.io/nvidia/pytorch:21.10-py3: 指定使用的Docker镜像,这里使用了nvcr.io/nvidia/pytorch的21.10-py3版本。 综上所述,以上是DeepSpeed命令参数的解释。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [阿里云AIGC- 使用Megatron-Deepspeed训练GPT-2并生成文本](https://blog.csdn.net/qq_39970492/article/details/131090026)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值