PPO核心算法流程图

最新推荐文章于 2025-02-27 16:31:47 发布

Benda1

最新推荐文章于 2025-02-27 16:31:47 发布

阅读量687

点赞数 3

分类专栏：强化学习 PPO 文章标签：算法 python conda vscode

本文链接：https://blog.csdn.net/2301_77130288/article/details/145268336

版权

2 篇文章

订阅专栏

1 篇文章

订阅专栏

初始化：首先，算法初始化一个智能体，并准备相关的参数和环境。
训练阶段：
- 检查是否达到训练迭代次数上限。如果达到，则结束训练。
- 否则，进行环境的交互，收集状态、动作及奖励信息。
数据收集：
- 通过与环境的交互，收集状态（state）、动作（action）、奖励（reward）和终止信号（done）等数据，保存为一个经验回放。
更新机制：
- 检查是否满足更新条件（如达到固定的步数）。
- 根据收集到的数据计算回报（Return）并进行策略更新。
优化步骤：
- 分别利用actor和critic网络。Actor网络用于生成动作策略，而Critic网络用来评估这些动作的价值。
- 在计算损失时，PPO会限制策略更新的范围，以避免过大的政策变化，确保学习过程的稳定性。
策略评估和更新：
- 采用PPO算法进行策略更新，计算损失后进行反向传播训练网络。
循环迭代：重复进行上述步骤，直到满足终止条件，最后输出学习得到的策略。