深度强化学习（3）：策略学习篇

Sudaa__

已于 2022-03-18 10:22:40 修改

阅读量2.1k

点赞数

分类专栏：科研文章标签：深度学习神经网络机器学习

于 2022-03-16 12:22:54 首次发布

本文链接：https://blog.csdn.net/qq_44755885/article/details/123523230

版权

7 篇文章 5 订阅

订阅专栏

本文介绍了深度强化学习中的策略学习方法，包括使用神经网络近似策略函数，状态价值函数近似以及策略梯度计算。策略梯度是优化策略网络参数的重要手段，对于离散和连续动作都有相应的形式。文章还提到了策略梯度在实际应用中的蒙特卡洛近似，并提及了REINFORCE算法和actor-critic方法。

摘要由CSDN通过智能技术生成

Policy Function $\pi(a|s)$ 是一个概率密度函数（PDF）
Policy Network：用一个神经网络 $\pi(a|s; \theta)$ 近似 $\pi(a|s)$ ， $\theta$ 是这个神经网络要训练的参数。
性质： $\sum{_{a{\in}A} \pi(a|s; \theta)}=1$ （PDF的性质），其中A是所有可能的动作。

动作价值函数（Action-Value Function）回顾（见第一章）。
状态价值函数
- $V_{\pi}(s_t)$ 是 $Q_{\pi}$ 的期望, 把动作 $A$ 作为随机变量. 关于 $A$ 求期望把 $A$ 消掉. 所以 $V_{\pi}$ 只与 ${\pi}$ 和 $s$ 有关, 给定状态S，由 $V_{\pi}(s_t)$ 的大小可以判断policy $\pi$ 的好坏.
策略学习
- 状态价值函数近似（Approximate state-value function）：
- 策略学习，给定状态S， $\pi$ 的策略越好， $V$ 的值越大。为了让 $\pi$ 的策略好，就要改进参数 $\theta$ 。
- 对状态S求期望以使只与参数 $\theta$ 有关。

策略梯度的计算:

其中红色部分推导由求导的链式法则反推而出：
整体推导并不严谨，只是为了帮助理解。这里忽略了 $Q_{\pi}(s,a)$ 也要关于 $\theta$ 求导（结果相同）。
策略梯度的两种等价形式：Form 1用于离散动作，Form 2用于连续动作（也适用于离散动作）。
Eg：
- 离散动作：
- 连续动作：
  因为 $\pi$ 函数是个非常复杂的神经网络所以无法做出定积分求出期望，所以只能用蒙特卡洛近似期望。
  蒙特卡洛：抽一个或多个样本，用样本来近似期望。