策略梯度优化训练类：基于强化学习中的策略梯度优化

apple_63504356

已于 2024-06-23 23:29:14 修改

阅读量780

点赞数 8

分类专栏：项目实训文章标签：人工智能深度学习机器学习

于 2024-06-10 22:54:07 首次发布

本文链接：https://blog.csdn.net/apple_63504356/article/details/139583836

版权

编写ppo库，定义一个基于强化学习中的策略梯度优化（PPO, Proximal Policy Optimization）的训练类 PPOPeftTrainer，继承自 PPOTrainer。这个库中还包含了一些辅助函数来支持PPO训练流程的特定需求。以下是对这些库组件的编写思路、编写目的和作用的详细分析：

编写思路

继承与融合：PPOPeftTrainer 继承自 PPOTrainer 并整合了 PeftTrainer 的特性，以支持在PPO训练框架中实施参数高效的微调方法，如LoRA。
自定义生成与奖励计算：通过重写 generate 方法，调整生成文本的逻辑，以适应PPO训练的需要。此外，使用 replace_model 函数来在默认模型和奖励模型之间切换，从而计算奖励。
训练循环的定制：在 ppo_train 方法中，实现了PPO训练的具体逻辑，包括对模型生成的响应进行奖励评估，并据此优化模型参数。

编写目的

支持基于PPO的训练：利用PPO方法优化生成模型的决策过程，提高模型在生成任务中的性能和稳定性。
参数效率的模型训练：整合参数高效的技术，减少模型训练过程中需要的资源消耗，同时保持或提高模型的性能。
灵活处理生成任务：通过自定义生成逻辑，提供对不同生成任务的灵活支持，如调整生成文本的长度和质量。

作用

PPOPeftTrainer：

class PPOPeftTrainer(PPOTrainer, PeftTrainer):
    r"""
    Inherits PPOTrainer.
    """

    def __init__(
            self,
            training_args: Seq2SeqTrainingArguments,
            finetuning_args: FinetuningArguments,
            callbacks: List[LogCallback],
            **kwargs
    ):
        PPOTrainer.__init__(self, **kwargs)
        self.args = training_args
        self.finetuning_args = finetuning_args
        self.log_callback = callbacks[0]
        self.state = TrainerState()
        self.data_collator = self.accelerator.prepare(kwargs["data_collator"]) # override the data collator of PPOTrainer

该类继承自PPOTrainer和PeftTrainer，结合了PPO训练的策略与PEFT的效率优化。这个复合训练器支持序列到序列的参数微调，特别是用于对话或文本生成任务的模型。具体功能如下：
__init__

初始化函数中，设置了训练参数、微调参数以及日志回调。
ppo_train

实现PPO训练循环。这里包括批处理大小的计算、训练步骤的设定、以及在训练过程中的日志记录和模型保存。此函数还负责生成响应（文本输出），并计算与PPO相关的奖励。
```
    def ppo_train(self, max_target_length: int) -> None:
        r"""
        Implements training loop for the PPO stage, like _inner_training_loop() in Huggingface's Trainer.
        "&#
```