大模型微调实战之 Transformer 强化学习(TRL Reinforcement Learning)(三)Proximal Policy Optimization
Proximal Policy Optimization
这是一个基本示例,展示了如何使用库中的PPOTrainer。基于一个查询,语言模型创建一个响应,然后对该响应进行评估。评估可以是人类参与的过程,或者是另一个模型的输出。
# imports
import torch
from transformers import AutoTokenizer
from trl import PPOTrainer, PPOConfig, AutoModelForCausalLMWithValueHead