ChatGPT训练流程复现

最新推荐文章于 2024-04-29 10:00:00 发布

zenRRan

最新推荐文章于 2024-04-29 10:00:00 发布

阅读量453

点赞数

文章标签： chatgpt python 深度学习 pytorch 开发语言

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247518695&idx=3&sn=c83f36151ed102226b8d9472b4effbfd&chksm=eb539d74dc241462fbf838363a642927a336f8f1bd79cd504761ba4850cb6e7b93f1378e3100&scene=126&sessionid=0

版权

本篇文章着重于chatGPT训练流程的复现

来自：无数据不智能

进NLP群—>加入NLP交流群

环境安装

虚拟环境创建

conda create -n  chatgpt python=3.10
conda activate chatgpt

依赖包安装

git clone https://github.com/LAION-AI/Open-Assistant.git
cd Open-Assistat/model
pip install -r model_training/requirements.txt
pip install -r reward/instructor/requirements.txt

安装trlx

git clone https://github.com/CarperAI/trlx.git
cd trlx
pip install torch --extra-index-url https://download.pytorch.org/whl/cu116 
pip install -e .

在Open-Assistant目录下，安装oasst-shared

cd oasst-shared/
pip install -e .

SFT

以翻译为例，prompt：

"zh": [ 
        "翻译成中文: {}",
        "{} 这句中文翻译怎麽写？",
        "我需要这句话的中文翻译: {}",
    ]

数据样例

[
"<human>+随机选择一个prompt.format(原句)+<bot>",
"译句"
]

训练脚本

mkdir cache
mkdir sft_model
python trainer_sft.py --configs defaults pythia --cache_dir ./cache --output_dir ./sft_model

配置文件

defaults:
  learning_rate: 1e-5
  gradient_checkpointing: false
  gradient_accumulation_steps: 32
  per_device_train_batch_size: 2
  per_device_eval_batch_size: 2
  weight_decay: 0.00
  warmup_steps: 600
  eval_steps: 500
  save_steps: 500
  max_length: 512
  num_train_epochs: 3
  logging_steps: 10
  max_grad_norm: 2.0
  save_total_limit: 4
  fp16: false
  eval_accumulation_steps:
  freeze_layer:
  datasets:
    - webgpt
    - squad_v2
  cache_dir: .cache
  loss_fn: CrossEntropyLoss
  eval_size:
  log_dir: "base"
  quantization: false
  seq2seqmodel: false
  poly_eps: 1.0
  fuse_gelu: true
  log_wandb: true
  samples_mixing: false # uses collator that mixes samples in the batch to create a single sample with possible multiple tasks within
  verbose: false
  output_dir: saved_model

pythia:
  learning_rate: 8e-6
  model_name: EleutherAI/pythia-70m-deduped
  weight_decay: 0.01
  max_length: 520
  warmup_steps: 1000
  gradient_checkpointing: false
  gradient_accumulation_steps: 9
  per_device_train_batch_size: 2
  per_device_eval_batch_size: 4
  output_dir: pythia_model

RM

数据样例

{
"question full text":["答案1","答案2"] # 跟据分数排名
}

训练脚本

cd ../reward/instructor
mkdir model
python trainer.py configs/deberta-v3-base.yml --output_dir ./reward_model

配置文件

model_name: microsoft/deberta-v3-base
learning_rate: 1e-5
scheduler: cosine
gradient_checkpointing: false
gradient_accumulation_steps: 16
per_device_train_batch_size: 2
warmup_steps: 600
eval_steps: 200
save_steps: 500
max_length: 512
num_train_epochs: 2
datasets:
  - webgpt
  - hfsummary

RL

数据样例

"<human>+随机选择一个prompt.format(原句)+<bot>"

训练脚本

cd ../../model_training
python trainer_rl.py --configs defaults_rlhf --cache_dir ./cache --rank_model ../reward/instructor/reward_model --sft_model ../model_training/sft_model  --output_dir ./rl_model

配置文件

defaults_rlhf:
  dataset:
  rank_model: TODO
  sft_model: TODO
  eval_prompts:
  batch_size: 64
  epochs: 10
  datasets:
    - oa_private:
        split: rl
        val_split: 0.0
        fraction: 1
        file: 2023-02-10_oasst_prod.jsonl
  cache_dir: .cache
  quantization: false
  seq2seqmodel: false
  output_dir: output
  reward_model_batch_size: 32

debug_rlhf:
  rank_model: /local/home/sanagnos/general/Open-Assistant/model/reward/instructor/facebook/galactica-125m-finetuned/checkpoint-500/
  sft_model: /local/home/sanagnos/general/Open-Assistant/model/model_training/EleutherAI/pythia-70m-deduped-base-finetuned/checkpoint-20/
  batch_size: 2