PPO（proximal policy optimization）算法

Namnan

已于 2023-02-20 10:31:35 修改

阅读量437

点赞数

分类专栏：强化学习文章标签：算法机器学习深度学习

于 2023-02-19 13:52:14 首次发布

本文链接：https://blog.csdn.net/litternannan/article/details/129108431

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

博客写到一半发现有篇讲的很清楚，直接化缘了
https://www.jianshu.com/p/9f113adc0c50
https://zhuanlan.zhihu.com/p/111068310

Policy gradient

强化学习的目标：学习到一个策略 $\pi\theta(a|s)$ 来最大化期望回报。
一种直接的方法就是在策略空间中直接搜索来得到最优策略，这种方法称为策略搜索（Policy Search）。策略搜索的本质是优化问题，可以分为基于梯度的优化和无梯度的优化，策略搜索和基于值函数的方法相比，策略搜索可以不需要值函数，直接优化策略。参数化的策略能处理连续状态和动作，可以直接学出随即性策略。策略梯度（Policy Gradient）是一种基于梯度的强化学习方法。假设 $\pi\theta(a|s)$ 是一个关于θ的连续可微函数，可以用梯度上升的方法来优化参数θ使得目标函数 $f(\theta)$ 最大。

简单推导

trajectory $\iota=\{s_1,a_1,s_2,a_2,...s_\iota,a_\iota\}$
$p_\theta=p(s_1)p_\theta(a_1|s_1)p_\theta(s_2|s_1,a_1)p_\theta(a_2|s_2)p_\theta(s_3|s_2,a_2)...=p(s_1)\underset{t=1}{\overset{\iota}{\sum}}p_\theta(a_\iota|s_\iota)p(s_{\iota+1}|s_\iota,a_\iota)$