使用Transformers.Trainer + peft 微调LLM
1. 没有保存adapter_model.bin
导致预测的时候, 报错 Please check that the file adapter_model.bin is present at Peft...
解决办法:
# 1. Trainer保存时没保存.bin, 在构造TrainingArguments参数时控制
args = TrainingArguments(
output_dir=OUTPUT_DIR, # checkpoint的存储目录
per_device_train_batch_size=BATCH_SIZE, # 单设备上的batch size
gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS, # 梯度累加的step数
warmup_steps=100,
num_train_epochs=EPOCHS,
learning_rate=LEARNING_RATE,
fp16=True, # 使用混合精度训练
logging_steps=1,
evaluation_strategy="no", # 不进行评估
save_strategy="steps",
save_steps=1000, # 保存checkpoint的step数, 这个保存很耗时间
save_total_limit=5, # 最多保存5个checkpoint
deepspeed=DS_CONFIG,
remove_unused_columns=False,
save_safetensors=False # 这个参数控制保存格式&#