对 ChatGLM-6B 模型基于 P-Tuning v2 的微调 3 包括 Linux 和 Windows 下的微调
flyfish
微调数据集的下载
Tsinghua Cloud 下载处理好的 ADGEN 数据集,将解压后的 AdvertiseGen
目录放到ChatGLM-6B
(文本win使用的路径)下,如果是linux则放置\ChatGLM-6B\ptuning
目录下。放在什么地方可以根据自己的需求放置,可以在下面的命令中更改数据集所在目录。
例如 ChatGLM-6B\AdvertiseGen
P-Tuning v2 微调 ChatGLM-6B 模型的命令 包括 Linux 和 Windows
Linux \ChatGLM-6B\ptuning\train.sh
PRE_SEQ_LEN=128
LR=2e-2
CUDA_VISIBLE_DEVICES=0 python3 main.py \
--do_train \
--train_file AdvertiseGen/train.json \
--validation_file AdvertiseGen/dev.json \
--prompt_column content \
--response_column summary \
--overwrite_cache \
--model_name_or_path THUDM/chatglm-6b \
--output_dir output/adgen-chatglm-6b-pt-$PRE_SEQ_LEN-$LR \
--overwrite_output_dir \
--max_source_length 64 \
--max_target_length 64 \
--per_device_train_batch_size 1 \
--per_device_eval_batch_size 1 \
--gradient_accumulation_steps 16 \
--predict_with_generate \
--max_steps 3000 \
--logging_steps 10 \
--save_steps 1000 \
--learning_rate $LR \
--pre_seq_len $PRE_SEQ_LEN \
--quantization_bit 4
环境变量
PRE_SEQ_LEN=128
:指定了前缀提示的长度为 128。这意味着在每一层 Transformer 中,前缀提示将由 128 个可学习的向量组成。
LR=2e-2
:指定了学习率为 0.02,这是模型训练时参数更新的步长。
CUDA_VISIBLE_DEVICES=0
指定要使用的 GPU 设备编号为 0。如果你有多张 GPU,这个参数可以指定使用哪张 GPU。0
表示使用第一张 GPU。
主要参数:
python3 main.py
:执行训练任务。
--do_train
:指定进行训练模式。如果没有这个选项,脚本可能只进行评估或预测。
--train_file AdvertiseGen/train.json
:指定训练数据的文件路径,这里是 AdvertiseGen/train.json
,包含训练用的输入-输出对。
--validation_file AdvertiseGen/dev.json
:指定验证数据的文件路径,这里是 AdvertiseGen/dev.json
,用于训练过程中的模型评估。
--prompt_column content
:指定输入数据集中用于提示词的列名,这里是 content
列。
--response_column summary
:指定输入数据集中用于生成输出的列名,这里是 summary
列。
--overwrite_cache
:指定是否覆盖缓存。如果此选项开启,所有缓存数据将被重新生成,确保使用最新的数据。
--model_name_or_path THUDM/chatglm-6b
:指定预训练模型的名称或路径,这里使用的是 THUDM/chatglm-6b
模型。
--output_dir output/adgen-chatglm-6b-pt-$PRE_SEQ_LEN-$LR
:指定训练结果和模型的输出目录。这里的目录名包括了前缀长度和学习率,方便区分不同的实验。
--overwrite_output_dir
:指定是否覆盖输出目录。如果此选项开启,输出目录中已有的内容将被删除。
--max_source_length 64
:指定输入序列的最大长度为 64 个 token,超过这个长度的部分将被截断。
--max_target_length 64
:指定生成序列(即模型输出)的最大长度为 64 个 token,超过这个长度的部分将被截断。
--per_device_train_batch_size 1
:指定每个设备(这里指每张 GPU)上的训练批次大小为 1。
--per_device_eval_batch_size 1
:指定每个设备上的评估批次大小为 1。
--gradient_accumulation_steps 16
:指定梯度累积的步数为 16。这意味着模型会在每次更新权重之前累积 16 次计算的梯度,相当于虚拟地增加了批次大小。
--predict_with_generate
:启用生成模式进行评估,即模型在评估时会生成完整的输出序列,而不仅仅是进行分类或回归。
--max_steps 3000
:指定训练的最大步数为 3000 步。
--logging_steps 10
:指定每隔 10 步记录一次日志,包括训练进度、损失等信息。
--save_steps 1000
:指定每隔 1000 步保存一次模型。
--learning_rate $LR
:指定学习率,这里用的是上面定义的环境变量 LR
,即 0.02。
--pre_seq_len $PRE_SEQ_LEN
:指定前缀提示的长度,这里用的是上面定义的环境变量 PRE_SEQ_LEN
,即 128。
--quantization_bit 4
:指定量化的比特位数为 4 位。量化可以降低模型计算的精度以减少内存和计算资源的占用,这里设置为 4 位量化。
Windows的微调命令
Windows 新建一个train_win.bat
所在路径是 \ChatGLM-6B\ptuning\train_win.bat
这里的命令是对应这linux改的
-
环境变量与延迟展开:
在 Windows 批处理文件中,使用环境变量时使用了setlocal enabledelayedexpansion
语句,它允许在脚本中使用延迟变量扩展。这是因为默认情况下,环境变量的值是在脚本开始执行时就已经固定下来的,不会随着脚本的执行而变化。 -
转义字符:
在 Windows 的批处理文件中,^
用于转义命令行中的某些字符,例如&、(、)、<、>、|
等。这里我们使用 ^ 来转义 & 字符,因为 & 在批处理文件中用于连接命令。 -
路径分隔符:
在 Windows 系统中,路径分隔符通常使用 \。然而,为了兼容 Python 和跨平台使用,建议使用 / 作为路径分隔符。 -
变量赋值:
在 .bat 文件中,可以使用 set 命令来定义变量。
命令如下
@echo off
setlocal enabledelayedexpansion
set PRE_SEQ_LEN=10
set LR=0.00002
python ptuning/main.py ^
--do_train ^
--train_file AdvertiseGen/train.json ^
--validation_file AdvertiseGen/dev.json ^
--prompt_column content ^
--response_column summary ^
--overwrite_cache ^
--model_name_or_path model ^
--output_dir output/adgen-chatglm-6b-pt-%PRE_SEQ_LEN%-%LR% ^
--overwrite_output_dir ^
--max_source_length 64 ^
--max_target_length 64 ^
--per_device_train_batch_size 1 ^
--per_device_eval_batch_size 1 ^
--gradient_accumulation_steps 16 ^
--predict_with_generate ^
--max_steps 3000 ^
--logging_steps 10 ^
--save_steps 1000 ^
--learning_rate %LR% ^
--pre_seq_len %PRE_SEQ_LEN% ^
--quantization_bit 4
运行
D:\source\ChatGLM-6B>D:\source\ChatGLM-6B\ptuning\train_win.bat