Lora微调LLM报错合集

最新推荐文章于 2025-02-05 11:32:09 发布

贰の⑩次方

最新推荐文章于 2025-02-05 11:32:09 发布

阅读量1.1k

点赞数 11

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qq_29304033/article/details/136915616

版权

文章讲述了在使用peft微调Transformer模型时遇到的四个问题：adapter_model.bin未保存、loss不下降、预测时的IndexError以及环境依赖问题。给出了相应的解决方案，如设置保存策略、调整模型参数和处理CUDA设备映射等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用Transformers.Trainer + peft 微调LLM

1. 没有保存adapter_model.bin

导致预测的时候，报错 Please check that the file adapter_model.bin is present at Peft...

解决办法：

# 1. Trainer保存时没保存.bin, 在构造TrainingArguments参数时控制
args = TrainingArguments(
    output_dir=OUTPUT_DIR, # checkpoint的存储目录
    per_device_train_batch_size=BATCH_SIZE, # 单设备上的batch size
    gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS, # 梯度累加的step数
    warmup_steps=100,
    num_train_epochs=EPOCHS,
    learning_rate=LEARNING_RATE,
    fp16=True, # 使用混合精度训练
    logging_steps=1,
    evaluation_strategy="no", # 不进行评估
    save_strategy="steps",
    save_steps=1000, # 保存checkpoint的step数， 这个保存很耗时间
    save_total_limit=5, # 最多保存5个checkpoint
    deepspeed=DS_CONFIG,
    remove_unused_columns=False,
    save_safetensors=False # 这个参数控制保存格式&#