AssertionError: DeepSpeed backend not set, please initialize it using init_process_group()

废话不多说,先说解决办法:deep speed版本用0.6.5。
pip install deepspeed==0.6.5


在这里插入图片描述

File “/home/user/miniconda3/envs/zjb_sat/lib/python3.8/site-packages/deepspeed/comm/comm.py”, line 562, in get_rank
assert cdb is not None and cdb.is_initialized(
AssertionError: DeepSpeed backend not set, please initialize it using init_process_group()
[2024-01-10 09:15:59,618] [INFO] [launch.py:315:sigkill_handler] Killing subprocess 1283780
[2024-01-10 09:15:59,619] [INFO] [launch.py:315:sigkill_handler] Killing subprocess 1283781
[2024-01-10 09:15:59,634] [INFO] [launch.py:315:sigkill_handler] Killing subprocess 1283782

百度google无解决办法,遂问GPT,
gpt回答的也不行,会报错:

看起来你的脚本在初始化DeepSpeed后端时出现了问题。DeepSpeed是一个用于在分布式系统上优化大型模型训练的库。错误消息表明DeepSpeed后端未设置,并建议使用init_process_group()进行初始化。

以下是一些建议,帮助你排查和解决问题:

  1. 检查DeepSpeed初始化:确保你在脚本中正确地初始化了DeepSpeed。查找init_process_group()函数,并确保在任何其他DeepSpeed相关函数之前调用它。看起来脚本缺少这个初始化步骤。

    例如: ```python import deepspeed

    … 其他导入和代码 …

    if name == ‘main’:
    deepspeed.init_process_group()
    args = get_args(args_list)
    initialize_distributed(args) ```

  2. 配置文件:如果你的脚本使用了DeepSpeed配置文件(deepspeed_config),确保它被正确指定,并包含你的分布式训练设置所需的配置。

  3. DeepSpeed后端:确保DeepSpeed在你的Conda环境(zjb_sat)中正确安装。你可以通过运行以下命令检查:

    pip list | grep deepspeed

    确保安装的版本与你的脚本兼容。

  4. MPI:如果你的脚本依赖MPI进行分布式训练,请确保MPI已正确安装并在你的环境中配置。

  5. DeepSpeed文档:查阅DeepSpeed官方文档,了解你的设置中可能缺失的任何特定要求或步骤。文档通常提供有关如何配置和初始化DeepSpeed的详细信息。

在做出必要的调整后,尝试重新运行你的脚本。如果问题仍然存在,你可能需要查阅DeepSpeed文档或向DeepSpeed社区寻求进一步的帮助。

pip list | grep deepspeed查看原来我的deepspeed版本为:0.12.3
解决办法:deep speed版本用0.6.5。
pip install deepspeed==0.6.5

  • 18
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

技术宅学长

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值