强化学习笔记——第二节

路人NaOH

已于 2024-06-17 10:52:26 修改

阅读量634

点赞数 19

分类专栏：强化学习笔记文章标签：笔记机器学习算法 python 人工智能

于 2024-06-16 18:03:30 首次发布

本文链接：https://blog.csdn.net/qq_45661381/article/details/139723798

版权

强化学习笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

第二节——贝尔曼公式

1.State Value

$G_t$ 为一个轨迹的discounted return，则State value就是 $G_t$ 的期望值Expectation

（简单来说，就是从一点到终点所有轨迹的return的平均值）
$v_\pi(s) = \mathbb{E}[G_t|S_t = s] \\ v表示当前的value \\ \pi表示当前策略policy$
state value与return的区别

state value是多个trajectory的return的平均值
return是单个trajectory的结果

2.贝尔曼公式

t时刻的价值函数为
$v_\pi(s) = \mathbb{E}[G_t|S_t = s]$
返回值 $G_t$ 等于
$\begin{aligned} G_t &= R_{t+1}+\gamma R_{t+2} + \gamma^2 R_{t+3} + …… \\ &= R_{t+1}+\gamma (R_{t+2} + \gamma R_{t+3} + ……) \\ &= R_{t+1} + \gamma G_{t+1} \end{aligned}$
则价值函数可分为
$\begin{aligned} v_\pi(s) &= \mathbb{E}[G_t|S_t = s] \\ &= \mathbb{E}[R_{t+1}+\gamma G_{t+1}|S_t=s] \\ &= \mathbb{E}[R_{t+1}|S_t=s]① +\gamma\mathbb{E}[G_{t+1}|S_t=s]② \end{aligned}$
其中

①式表示当前奖励的均值，用全概率公式分解
$\begin{aligned} \mathbb{E}[G_t|S_t = s] &= \sum_{a}\pi(a|s)\mathbb{E}[R_{t+1}|S_t=s,A_t=a] \\ &= \sum_{a}\pi(a|s)\sum_{r}\pi(r|s,a)r \\ \end{aligned}$
其中 $\pi(a|s)$ 表示采取采用策略 $\pi$ 动作a的概率， $\mathbb{E}[R_{t+1}|S_t=s,A_t=a]$ 由期望的定义分解为 $\sum_{r}\pi(r|s,a)r$
②式表示未来奖励的均值
$\begin{aligned} \mathbb{E}[G_{t+1}|S_t=s] &= \sum_{s'}\mathbb{E}[G_{t+1}|S_t=s,S_{t+1}=s']p(s'|s) \\ & 由于马尔可夫性质，即后面状态与前面无关，则\\ &= \sum_{s'}\mathbb{E}[G_{t+1}|S_{t+1}=s']p(s'|s) \\ &= \sum_{s'}v_\pi(s')p(s'|s) \\ &= \sum_{s'}v_\pi(s')\sum_{a}p(s' | s,a)\pi(a|s) \end{aligned}$
a为动作集

故贝尔曼公式为
$\begin{aligned} v_\pi(s) &= \mathbb{E}[R_{t+1}|S_t=s] +\gamma\mathbb{E}[G_{t+1}|S_t=s], \\ &= \underbrace{\sum_{a}\pi(a|s)\sum_r p(r|s,a)r}_{当前奖励的平均值} +\underbrace{\gamma \sum_a \pi(a|s)\sum_{s'}p(s'|s,a)v_{\pi}(s')}_{未来奖励的平均值}\\ &= \sum_{a}\pi(a|s) \left[ \sum_{r}p(r|s,a)r+\gamma\sum_{s'}p(s’|s,a)v_{\pi}(s') \right], \forall s\in S. \end{aligned}$
描述了不同状态值之间的关系，对于所有状态都成立，即一个状态对应一个式子

矩阵形式

$v_{\pi}(s_i)=r_{\pi}(s_i)+\gamma \sum_{s_j}p_{\pi}(s_j|s_i)v_{\pi}(s_j)$

例子

3.Action value

定义
$q_\pi(s,a) = \mathbb{E}[G_t|S_t=s, A_t=a]$
表示从当前状态s出发，进行行动a后所得到return的平均值，依赖于策略 $\pi$

有贝尔曼公式可得
$\begin{aligned} q_\pi(s,a) &= \mathbb{E}[G_t|S_t=s, A_t=a] \\ &= \sum_{r}p(r|s,a)r+\gamma\sum_{s'}p(s’|s,a)v_{\pi}(s') \end{aligned}$

state value 与 action value的区别

状态值 $v_{\pi}(s)$ 与动作值 $q_{\pi}$ 计算关系
$v_{\pi}(s)=\sum_{a}\pi(a|s)q_{\pi}(s,a)$

state value: 从一个状态出发得到的平均返回值
action value:从一个状态出发，采取一种行动后，得到的平均返回值

4.贝尔曼最优公式

贝尔曼公式用于 评估策略，你给出一个策略，它就计算该策略的价值。
贝尔曼最优公式用于 寻找最优策略，你给出一个游戏环境，它就找到在这个环境下最优的策略。

$\begin{aligned} v_\pi(s) &= \max_{\pi} \sum_{a}\pi(a|s) \left[ \sum_{r}p(r|s,a)r+\gamma\sum_{s'}p(s’|s,a)v_{\pi}(s') \right] \\ &= \max_{\pi}\sum_{a}\pi(a|s)q(s,a) , \forall s\in S. \\ &= \max_{\pi}(r_{\pi} + \gamma P_{\pi}v) （向量表示） \end{aligned}$