【深度强化学习】4. Policy Gradient

最新推荐文章于 2022-05-24 09:44:51 发布

*pprp*

最新推荐文章于 2022-05-24 09:44:51 发布

阅读量519

点赞数 4

分类专栏：深度强化学习入门文章标签：人工智能强化学习深度学习神经网络

原创文章不要私自转载，自私转载必究责任，如需转载请联系wx:topeijie商谈

本文链接：https://blog.csdn.net/DD_PP_JJ/article/details/109373702

版权

【Datawhale打卡】十一的时候自己看过一遍，李宏毅老师讲的很好，对数学小白也很友好，但是由于没有做笔记（敲代码），看完以后脑袋里空落落的。趁着这次打卡活动，重新看一遍，果然好多细节需要重头梳理一遍。

文章目录

1. 新概念/符号

policy（策略）： 每一个actor中会有对应的策略，这个策略决定了actor的行为。(给定一个state，policy会决定action)。policy记为 $\pi$ 。
Return（回报）： 一个回合（Episode）所得到的所有的reward的总和，也称为Total reward。一般地，用 $R$ 来表示。
Trajectory（轨迹 $\tau$ ）： 一个试验中将environment 输出的 $s$ 跟 actor 输出的行为 $a$ ，把这个 $s$ 跟 $a$ 全部串起来形成的集合，称为Trajectory，即 $\text { Trajectory } \tau=\left\{s_{1}, a_{1}, s_{2}, a_{2}, \cdots, s_{t}, a_{t}\right\}$ 。
Reward function： 根据在某一个 state 采取的某一个 action 决定说现在这个行为可以得到多少的分数，它是一个 function。也就是给一个 $s_1$ ， $a_1$ ，它告诉你得到 $r_1$ 。给它 $s_2$ ， $a_2$ ，它告诉你得到 $r_2$ 。把所有的 $r$ 都加起来，就得到了 $R(\tau)$ ，代表某一个 trajectory $\tau$ 的 reward。
Expected reward： $\bar{R}_{\theta}=\sum_{\tau} R(\tau) p_{\theta}(\tau)=E_{\tau \sim p_{\theta}(\tau)}[R(\tau)]$ 。

符号	解释
$\tau$	轨迹，游戏从开始到结束的s、a串（ $\left\{s_{1}, a_{1}, s_{2}, a_{2}, \cdots, s_{t}, a_{t}\right\}$ ）
episode	一个游戏回合，从开始到结束
$\pi$	Policy 策略的代指符号
$\theta$	Policy $\pi$ 中的参数

2. 三个组成部分

示意图

强化学习通常有以下组成部分，actor, environment, reward。具体过程如上图所示，构成了一个完整的轨迹Trajectory:
$\text { Trajectory } \tau=\left\{s_{1}, a_{1}, s_{2}, a_{2}, \cdots, s_{t}, a_{t}\right\}$
每一个 trajectory，你可以计算它发生的概率。假设现在 actor 的参数已经被给定了话，就是 $\theta$ 。根据 $\theta$ ，你其实可以计算某一个 trajectory 发生的概率，你可以计算某一个回合，某一个 episode 里面，发生这样子状况的概率。
$\begin{aligned} p_{\theta}(\tau) &=p\left(s_{1}\right) p_{\theta}\left(a_{1} | s_{1}\right) p\left(s_{2} | s_{1}, a_{1}\right) p_{\theta}\left(a_{2} | s_{2}\right) p\left(s_{3} | s_{2}, a_{2}\right) \cdots \\ &=p\left(s_{1}\right) \prod_{t=1}^{T} p_{\theta}\left(a_{t} | s_{t}\right) p\left(s_{t+1} | s_{t}, a_{t}\right) \end{aligned}$