使用的数据集CoT_chinese_data, alpaca_gpt4_data_zh, gaokao三个数据集合计是74771条数据,A100 * 2 80G 训练了一天。 训练命令: 登录后复制 llamafactory-cli train \ --stage sft \ --do_train True \ --model_name_or_path /data/llmservice/modes/Qwen2-7B/qwen/Qwen2-7B \ --preprocessing_num_workers 16 \ --finetuning_type lora \ --template default \ --flash_attn auto \ --dataset_dir data \ --dataset CoT_Chinese_data,alpaca_gpt4_data_zh,gaokao \ --cutoff_len 8192 \ --learning_rate 5e-05 \ --num_train_epochs 3.0 \ --max_samples 100000 \ --per_device_train_batch_size 3 \ --gradient_accumulation_steps 8 \ --lr_scheduler_type cosine \ --max_grad_norm 1.0 \ --logging_steps 5 \ --save_steps 100 \ --warmup_steps 0 \ --optim adamw_torch \ --packing False \ --report_to none \ --output_dir saves/Qwen2-7B/lora/train_2024-08-04-08-50-31 \ --fp16 True \ --plot_loss True \ --ddp_timeout 180000000 \ --include_num_input_tokens_seen True \ --lora_rank 8 \ --lora_alpha 16 \ --lora_dropout 0 \ --use_rslora True \ --use_dora True \ --lora_target all \ --deepspeed cache/ds_z3_config.json 1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.25.26.27.28.29.30.31.32.33.34.35.36. 训练曲线: 原创作者: u_16639863 转载于: https://blog.51cto.com/u_16639863/11662109