对 ChatGLM-6B 模型基于 P-Tuning v2 的微调 3 包括 Linux 和 Windows 下的微调

西笑生

于 2024-08-15 18:23:40 发布

阅读量467

点赞数 10

分类专栏：大模型文章标签： ChatGLM-6B P-Tuning v2

本文链接：https://blog.csdn.net/flyfish1986/article/details/141223784

版权

大模型专栏收录该内容

72 篇文章 0 订阅

订阅专栏

对 ChatGLM-6B 模型基于 P-Tuning v2 的微调 3 包括 Linux 和 Windows 下的微调

flyfish

微调数据集的下载

Tsinghua Cloud 下载处理好的 ADGEN 数据集，将解压后的 AdvertiseGen 目录放到ChatGLM-6B（文本win使用的路径）下，如果是linux则放置\ChatGLM-6B\ptuning目录下。放在什么地方可以根据自己的需求放置，可以在下面的命令中更改数据集所在目录。

例如 ChatGLM-6B\AdvertiseGen

P-Tuning v2 微调 ChatGLM-6B 模型的命令包括 Linux 和 Windows

Linux \ChatGLM-6B\ptuning\train.sh

PRE_SEQ_LEN=128
LR=2e-2

CUDA_VISIBLE_DEVICES=0 python3 main.py \
    --do_train \
    --train_file AdvertiseGen/train.json \
    --validation_file AdvertiseGen/dev.json \
    --prompt_column content \
    --response_column summary \
    --overwrite_cache \
    --model_name_or_path THUDM/chatglm-6b \
    --output_dir output/adgen-chatglm-6b-pt-$PRE_SEQ_LEN-$LR \
    --overwrite_output_dir \
    --max_source_length 64 \
    --max_target_length 64 \
    --per_device_train_batch_size 1 \
    --per_device_eval_batch_size 1 \
    --gradient_accumulation_steps 16 \
    --predict_with_generate \
    --max_steps 3000 \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate $LR \
    --pre_seq_len $PRE_SEQ_LEN \
    --quantization_bit 4

环境变量

PRE_SEQ_LEN=128 ：指定了前缀提示的长度为 128。这意味着在每一层 Transformer 中，前缀提示将由 128 个可学习的向量组成。
LR=2e-2 ：指定了学习率为 0.02，这是模型训练时参数更新的步长。
CUDA_VISIBLE_DEVICES=0
指定要使用的 GPU 设备编号为 0。如果你有多张 GPU，这个参数可以指定使用哪张 GPU。0 表示使用第一张 GPU。

主要参数:

python3 main.py ：执行训练任务。
--do_train ：指定进行训练模式。如果没有这个选项，脚本可能只进行评估或预测。

--train_file AdvertiseGen/train.json ：指定训练数据的文件路径，这里是 AdvertiseGen/train.json，包含训练用的输入-输出对。

--validation_file AdvertiseGen/dev.json ：指定验证数据的文件路径，这里是 AdvertiseGen/dev.json，用于训练过程中的模型评估。

--prompt_column content ：指定输入数据集中用于提示词的列名，这里是 content 列。

--response_column summary ：指定输入数据集中用于生成输出的列名，这里是 summary 列。

--overwrite_cache ：指定是否覆盖缓存。如果此选项开启，所有缓存数据将被重新生成，确保使用最新的数据。

--model_name_or_path THUDM/chatglm-6b ：指定预训练模型的名称或路径，这里使用的是 THUDM/chatglm-6b 模型。

--output_dir output/adgen-chatglm-6b-pt-$PRE_SEQ_LEN-$LR ：指定训练结果和模型的输出目录。这里的目录名包括了前缀长度和学习率，方便区分不同的实验。

--overwrite_output_dir ：指定是否覆盖输出目录。如果此选项开启，输出目录中已有的内容将被删除。

--max_source_length 64 ：指定输入序列的最大长度为 64 个 token，超过这个长度的部分将被截断。

--max_target_length 64 ：指定生成序列（即模型输出）的最大长度为 64 个 token，超过这个长度的部分将被截断。

--per_device_train_batch_size 1 ：指定每个设备（这里指每张 GPU）上的训练批次大小为 1。

--per_device_eval_batch_size 1 ：指定每个设备上的评估批次大小为 1。

--gradient_accumulation_steps 16 ：指定梯度累积的步数为 16。这意味着模型会在每次更新权重之前累积 16 次计算的梯度，相当于虚拟地增加了批次大小。

--predict_with_generate ：启用生成模式进行评估，即模型在评估时会生成完整的输出序列，而不仅仅是进行分类或回归。

--max_steps 3000 ：指定训练的最大步数为 3000 步。

--logging_steps 10 ：指定每隔 10 步记录一次日志，包括训练进度、损失等信息。

--save_steps 1000 ：指定每隔 1000 步保存一次模型。

--learning_rate $LR ：指定学习率，这里用的是上面定义的环境变量 LR，即 0.02。

--pre_seq_len $PRE_SEQ_LEN ：指定前缀提示的长度，这里用的是上面定义的环境变量 PRE_SEQ_LEN，即 128。

--quantization_bit 4 ：指定量化的比特位数为 4 位。量化可以降低模型计算的精度以减少内存和计算资源的占用，这里设置为 4 位量化。

Windows的微调命令

Windows 新建一个train_win.bat所在路径是 \ChatGLM-6B\ptuning\train_win.bat
这里的命令是对应这linux改的

环境变量与延迟展开：
在 Windows 批处理文件中，使用环境变量时使用了 setlocal enabledelayedexpansion 语句，它允许在脚本中使用延迟变量扩展。这是因为默认情况下，环境变量的值是在脚本开始执行时就已经固定下来的，不会随着脚本的执行而变化。
转义字符：
在 Windows 的批处理文件中，^ 用于转义命令行中的某些字符，例如 &、(、)、<、>、| 等。这里我们使用 ^ 来转义 & 字符，因为 & 在批处理文件中用于连接命令。
路径分隔符：
在 Windows 系统中，路径分隔符通常使用 \。然而，为了兼容 Python 和跨平台使用，建议使用 / 作为路径分隔符。
变量赋值：
在 .bat 文件中，可以使用 set 命令来定义变量。

命令如下

@echo off
setlocal enabledelayedexpansion

set PRE_SEQ_LEN=10
set LR=0.00002

python ptuning/main.py ^
    --do_train ^
    --train_file AdvertiseGen/train.json ^
    --validation_file AdvertiseGen/dev.json ^
    --prompt_column content ^
    --response_column summary ^
    --overwrite_cache ^
    --model_name_or_path model ^
    --output_dir output/adgen-chatglm-6b-pt-%PRE_SEQ_LEN%-%LR% ^
    --overwrite_output_dir ^
    --max_source_length 64 ^
    --max_target_length 64 ^
    --per_device_train_batch_size 1 ^
    --per_device_eval_batch_size 1 ^
    --gradient_accumulation_steps 16 ^
    --predict_with_generate ^
    --max_steps 3000 ^
    --logging_steps 10 ^
    --save_steps 1000 ^
    --learning_rate %LR% ^
    --pre_seq_len %PRE_SEQ_LEN% ^
    --quantization_bit 4

运行

 D:\source\ChatGLM-6B>D:\source\ChatGLM-6B\ptuning\train_win.bat

西笑生

关注

10
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
0
评论
对 ChatGLM-6B 模型基于 P-Tuning v2 的微调 3 包括 Linux 和 Windows 下的微调

flyfish
复制链接

扫一扫

专栏目录

对 ChatGLM-6B 模型基于 P-Tuning v2 的微调 3 包括 Linux 和 Windows 下的微调

对 ChatGLM-6B 模型基于 P-Tuning v2 的微调 3 包括 Linux 和 Windows 下的微调

微调数据集的下载

P-Tuning v2 微调 ChatGLM-6B 模型的命令 包括 Linux 和 Windows

环境变量

主要参数:

Windows的微调命令

P-Tuning v2 微调 ChatGLM-6B 模型的命令包括 Linux 和 Windows