全量微调Llama2-7b遇到的错误(stanford_alpaca)_bash pretrain_llama2_7b_distributed_zl200

最新推荐文章于 2024-07-21 20:54:35 发布

2401_84009899

最新推荐文章于 2024-07-21 20:54:35 发布

阅读量557

点赞数 9

分类专栏：程序员文章标签： bash 开发语言

本文链接：https://blog.csdn.net/2401_84009899/article/details/137721274

版权

项目地址： GitHub - tatsu-lab/stanford_alpaca: Code and documentation to train Stanford’s Alpaca models, and generate the data.Code and documentation to train Stanford’s Alpaca models, and generate the data. - tatsu-lab/stanford_alpaca icon-default.png?t=N7T8 https://github.com/tatsu-lab/stanford_alpaca

二、报错：ImportError: cannot import name ‘openai_object’ from ‘openai’

openai的版本不对，更换版本

pip install openai==0.28.0

三、报错：google.protobuf.message.DecodeError: Error parsing message

加载Tokenizer报 google.protobuf.message.DecodeError: Error parsing message 这个错误

错误代码（修改前）：

tokenizer = transformers.AutoTokenizer.from_pretrained(
        model_args.model_name_or_path,
        cache_dir=training_args.cache_dir,
        model_max_length=training_args.model_max_length,
        padding_side="right",
        use_fast=False,
    )

修改后：去掉 use_fast=False

tokenizer = transformers.AutoTokenizer.from_pretrained(
        model_args.model_name_or_path,
        cache_dir=training_args.cache_dir,
        model_max_length=training_args.model_max_length,
        padding_side="right"
    )

四、报错 torch.distributed.elastic.multiprocessing.errors.ChildFailedError（exitcode返回不是-9）

报这个错误原因有很多，错误点不在这里，应该看上面的错误提醒，上面的错误才是真正需要解决的，在分布式训练中，子进程只要报错，主进程总是可以看到torch.distributed.elastic.multiprocessing.errors.ChildFailedError这个错误，因此解决方法可以先把gpu其他节点关掉，使用一个节点去分析终端报的错误，然

最低0.47元/天解锁文章

2401_84009899

关注

9
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
全量微调Llama2-7b遇到的错误(stanford_alpaca)_bash pretrain_llama2_7b_distributed_zl200

项目地址： GitHub - tatsu-lab/stanford_alpaca: Code and documentation to train Stanford’s Alpaca models, and generate the data.Code and documentation to train Stanford’s Alpaca models, and generate the data. - tatsu-lab/stanford_alpacahttps://github.com/tatsu-l
复制链接

扫一扫