废话不多说,先说解决办法:deep speed版本用0.6.5。
pip install deepspeed==0.6.5
File “/home/user/miniconda3/envs/zjb_sat/lib/python3.8/site-packages/deepspeed/comm/comm.py”, line 562, in get_rank
assert cdb is not None and cdb.is_initialized(
AssertionError: DeepSpeed backend not set, please initialize it using init_process_group()
[2024-01-10 09:15:59,618] [INFO] [launch.py:315:sigkill_handler] Killing subprocess 1283780
[2024-01-10 09:15:59,619] [INFO] [launch.py:315:sigkill_handler] Killing subprocess 1283781
[2024-01-10 09:15:59,634] [INFO] [launch.py:315:sigkill_handler] Killing subprocess 1283782
百度google无解决办法,遂问GPT,
gpt回答的也不行,会报错:
看起来你的脚本在初始化DeepSpeed后端时出现了问题。DeepSpeed是一个用于在分布式系统上优化大型模型训练的库。错误消息表明DeepSpeed后端未设置,并建议使用
init_process_group()
进行初始化。以下是一些建议,帮助你排查和解决问题:
检查DeepSpeed初始化:确保你在脚本中正确地初始化了DeepSpeed。查找
init_process_group()
函数,并确保在任何其他DeepSpeed相关函数之前调用它。看起来脚本缺少这个初始化步骤。例如: ```python import deepspeed
… 其他导入和代码 …
if name == ‘main’:
deepspeed.init_process_group()
args = get_args(args_list)
initialize_distributed(args) ```配置文件:如果你的脚本使用了DeepSpeed配置文件(
deepspeed_config
),确保它被正确指定,并包含你的分布式训练设置所需的配置。DeepSpeed后端:确保DeepSpeed在你的Conda环境(
zjb_sat
)中正确安装。你可以通过运行以下命令检查:
pip list | grep deepspeed
确保安装的版本与你的脚本兼容。
MPI:如果你的脚本依赖MPI进行分布式训练,请确保MPI已正确安装并在你的环境中配置。
DeepSpeed文档:查阅DeepSpeed官方文档,了解你的设置中可能缺失的任何特定要求或步骤。文档通常提供有关如何配置和初始化DeepSpeed的详细信息。
在做出必要的调整后,尝试重新运行你的脚本。如果问题仍然存在,你可能需要查阅DeepSpeed文档或向DeepSpeed社区寻求进一步的帮助。
pip list | grep deepspeed
查看原来我的deepspeed版本为:0.12.3
解决办法:deep speed版本用0.6.5。
pip install deepspeed==0.6.5