全量微调Llama2-7b遇到的错误(stanford_alpaca)_bash pretrain_llama2_7b_distributed_zl200

项目地址: GitHub - tatsu-lab/stanford_alpaca: Code and documentation to train Stanford’s Alpaca models, and generate the data.Code and documentation to train Stanford’s Alpaca models, and generate the data. - tatsu-lab/stanford_alpacaicon-default.png?t=N7T8https://github.com/tatsu-lab/stanford_alpaca

二、报错:ImportError: cannot import name ‘openai_object’ from ‘openai’

openai的版本不对,更换版本

pip install openai==0.28.0

三、报错:google.protobuf.message.DecodeError: Error parsing message
  • 加载Tokenizer报 google.protobuf.message.DecodeError: Error parsing message 这个错误

错误代码(修改前):

tokenizer = transformers.AutoTokenizer.from_pretrained(
        model_args.model_name_or_path,
        cache_dir=training_args.cache_dir,
        model_max_length=training_args.model_max_length,
        padding_side="right",
        use_fast=False,
    )

修改后:去掉 use_fast=False

tokenizer = transformers.AutoTokenizer.from_pretrained(
        model_args.model_name_or_path,
        cache_dir=training_args.cache_dir,
        model_max_length=training_args.model_max_length,
        padding_side="right"
    )
四、报错 torch.distributed.elastic.multiprocessing.errors.ChildFailedError(exitcode返回不是-9)
  • 报这个错误原因有很多,错误点不在这里,应该看上面的错误提醒,上面的错误才是真正需要解决的,在分布式训练中,子进程只要报错,主进程总是可以看到torch.distributed.elastic.multiprocessing.errors.ChildFailedError这个错误,因此解决方法可以先把gpu其他节点关掉,使用一个节点去分析终端报的错误,然
  • 9
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值