强化学习知识总结

最新推荐文章于 2024-08-11 18:21:52 发布

界限不存在的

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量590

点赞数 1

文章标签：强化学习深度学习公式推导

本文链接：https://blog.csdn.net/qq_38907879/article/details/102854884

版权

本文总结了李宏毅老师的深度强化学习课程，重点关注model-free的Policy和Value方法，包括Policy Gradient的推导、PPO算法的介绍、Value-Based的DQN及其问题，以及Actor-Critic方法。此外，还探讨了On-Policy和Off-Policy的区别，并简要提及了稀疏奖励和模仿学习的应用。

摘要由CSDN通过智能技术生成

概览

之前学习了李宏毅老师深度学习中，关于深度强化学习的相关知识，感觉虽然推导公式基本都已经了解了，但是印象却不是十分深刻，因此，在这里写下来用作复习。
本次内容主要关注的是model-free的部分，对于model-base的内容，在这次就不进行深入的探讨了。这个博客会首先从policy-base的方法开始讲起，然后过渡到value-base的方法。最后再讲讲比较著名的A3C是如何将两者结合起来进行使用的。值得注意的是老师在课程的最后向同学们介绍了模仿学习(imitation learning)，但是在这篇文章中我们不会探讨这个问题，我之后会专门开一个新的系列来讲一讲我认识中的模仿学习以及其中的反向强化学习（inverse reinforcement learning）
补充：在全部写完之后，补充一下on-policy 和 off-policy 两种不同的训练方法（参数更新）

强化学习的基本分类

model-based approach

在这个方法下面，机器会对环境有一个详细的认知，也就是可以在不打开游戏的环境下进行模拟，我们称之为simulator

model-free approach

policy-base 用奖励梯度来表示策略梯度，直接更新策略

\pi

value-base 不直接更新策略

\pi

，而是更新未来预期函数Q来间接影响策略

\pi

Policy based approach

1.基本定义

$a=\pi(s)$
$\pi$ 表示策略， $\theta$ 是这个策略的参数（如果线形表示的话，那么实际上 $a=\theta s$ ），它的输入是状态s，输出是动作a
$\pi(s,a)=\pi(a|s)=P(a|s)$
在状态s下进行动作a的概率也可以表示称这种形式
$R_\theta=\sum_{t=1}^{T}r_t$
我们将从游戏从开始到结束，agent得到的奖励成为total reward
$\tau=\{s_1,a_1,r_1.......,s_T,a_T,r_T\}$
我们将这个有序列表称为trajectory
$P(\tau|\theta)=P(s_1)\prod_{t=1}^{T}p(a_t|s_t,\theta)p(r_t,s_{t+1}|s_t,a_t)$
在策略 $\theta$ 下选择路径 $\tau$ 的概率不难理解可以表示为左边的等式，但是值得注意的是，这个公式的第一项和第三项都和你的actor无关，都是只取决于environment的。
$\bar{R_\theta}=\sum_{\tau}R(\tau)P(\tau|\theta)\approx{\frac{1}{N}\sum_{n=1}^{N}R(\tau)}$
我们将这个称为策略 $\theta$ 的奖励期望，也是我们在求奖励梯度时会着重使用的公式
on-policy:真正进行学习的agent和与环境互动的agent是同一个agent
off-policy:真正进行学习的agent和与环境互动的agent不是同一个agent

我们现在来深入思考一下为什么会有off-policy的存在。on-policy需要我们在每一次 $\theta$ 更新之后，重新进行采样，这样的话算法效率过低，因此我们引入off-policy来解决这个问题。

2.主要方法

我们主要通过求上面奖励期望对 $\theta$ 微分来表示我们的策略梯度，然后我们对这个进行梯度上升（gradient ascent），用这个方法不断逼近理想中的最佳策略 $\theta$ ，而在深度学习当中，我们会把这个 $\theta$ 写成一个神经网络的形式。

2.1公式推导

problem statement: $\theta^*=argmax\bar{R_\theta}$
gradient ascent: $\theta_{new}=\theta_{old}+\eta\nabla\bar{R_{\theta_{old}}}$
calculate about the gradient $\nabla\bar{R_{\theta}}$ :
$\nabla\bar{R_{\theta}}=\sum_{\tau}R(\tau)\nabla P(\tau|\theta)$
$\space\space\space\space\space\space\space\space=\sum_{\tau}R(\tau)P(\tau|\theta) \frac{\nabla P(\tau|\theta)}{P(\tau|\theta) }$
$\space\space\space\space\space\space\space\space=\sum_{\tau}R(\tau)\nabla log(P(\tau|\theta))$