项目场景:
单机多卡训练deepspeed框架一直报错
有八个GPU,使用deepspeed脚本一直报错ValueError: No slot ‘5’ specified on host ‘localhost’
问题描述
llava1.5多卡微调
添加include后仍报错ValueError: No slot ‘5’ specified on host ‘localhost’
原因分析:
可能是之前使用export CUDA_VISIBLE_DEVICES指定GPU启动打乱了localhost中list序列号
解决方案:
重新export CUDA_VISIBLE_DEVICES=0,1…覆盖一下loaclhost
日志中存在警告export和include不能共存,因此优先使用include命令 设置5 6 卡进行训练
更新:
日志里面有参数 把list重新设置一下就好了