6. 贝尔曼方程

aganim

已于 2023-12-23 20:50:05 修改

阅读量244

点赞数 1

分类专栏：我的强化学习笔记文章标签：算法机器学习

于 2023-12-20 10:55:13 首次发布

本文链接：https://blog.csdn.net/caijungan/article/details/134963647

版权

我的强化学习笔记专栏收录该内容

22 篇文章 0 订阅

订阅专栏

文章目录

1. 简介
2.贝尔曼方程的类别
3 贝尔曼方程的意义
4 贝尔曼方程的最初形式
- 4.1 状态值函数
- 4.2 行为值函数
3.贝尔曼期望方程
3.5 贝尔曼方程的矩阵形式
4. 什么是最优状态值函数
5 什么是最优行为值函数
6. 贝尔曼最优方程

1. 简介

(1)贝尔曼方程是寻找马尔科夫决策过程的最优策略的理论基础

(2)贝尔曼方程是强化学习的基石

(3）几乎所有的强化学习算法（动态规划、蒙特卡诺、时序差分等）都是以贝尔曼方程为基础求解最优策略

2.贝尔曼方程的类别

$\begin{cases} 贝尔曼期望方程：为策略迭代算法提供理论支撑\\ 贝尔曼最优方程：为值迭代算法提供理论支撑 \end{cases}$

3 贝尔曼方程的意义

为各类以迭代方式求解最优策略开启了大门

4 贝尔曼方程的最初形式

4.1 状态值函数

$\begin{align*} V_\pi (s)&=E_\pi[G_t|S_t=s]\\ &=E_\pi[R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\cdots|S_t=s]\\ &=E_\pi[R_{t+1}+\gamma (R_{t+2}+\gamma R_{t+3}+\cdots)|S_t=s]\\ &=E_\pi[R_{t+1}+\gamma G_{t+1}|S_t=s]\\ &=E_\pi[R_{t+1}+\gamma V_\pi(S_{t+1})|S_t=s]\\ V_\pi(s)&-状态为s时遵循策略\pi 时的价值\\ R_{t+1}&-策略为\pi ,状态为s时的立即回报\\ \gamma V_\pi(S_{t+1})&-状态为s时，下一时刻状态值函数的折扣期望 \end{align*}$

4.2 行为值函数

$\begin{align*} Q_\pi(s,a)&=E_\pi[G_t|S_t=s,A_t=a]\\ &=E_\pi[R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\cdots|S_t=s,A_t=a]\\ &=E_\pi[R_{t+1}+\gamma(R_{t+2}+\gamma R_{t+3}+\cdots)|S_t=s,A_t=a]\\ &=E_\pi[R_{t+1}+\gamma Q_\pi(S_{t+1},A_{t+1})|S_t=s,A_t=a] \end{align*}$

3.贝尔曼期望方程

具有四种表达形式

3.1 $Q\to V$

$V_\pi(s)=\sum_{a\in A}\pi(a|s)Q_\pi(s,a)$

3.2 $V\to Q$

$Q_\pi(s,a)=R_s^a+\gamma\sum_{s'\in S}P_{ss'}^aV_\pi(s')$

3.3 $V'\to V$

$V_\pi(s)=\sum_{a\in A}\left[\pi(a|s)\left( R_s^a+\gamma\sum_{s'\in S}P_{ss'}^aV_\pi(s') \right)\right]$

3.4 $Q'\to Q$

$Q_\pi(s,a)=R_s^a+\gamma\sum_{s'\in S}P_{ss'}^a\sum_{a'\in A}\pi(a'|s')Q_\pi(s',a')$

3.5 贝尔曼方程的矩阵形式

$\mathbf{V_\pi}=\mathbf{R_\pi}+\gamma\mathbf{P_\pi}\mathbf{V_\pi}\\ \begin{bmatrix} V_\pi(1)\\ V_\pi(2)\\ \vdots \\ V_\pi(n) \end{bmatrix}=\begin{bmatrix} R_1^\pi \\ R_2^\pi\\\vdots\\R_n^\pi \end{bmatrix}+\gamma\begin{bmatrix} P_{11}^\pi & P_{12}^\pi & \cdots & P_{1n}^\pi \\ P_{21}^\pi & P_{22}^\pi & \cdots & P_{2n}^\pi \\ \vdots & \vdots & \ddots & \vdots \\ P_{n1}^\pi & P_{n2}^\pi & \cdots & P_{nn}^\pi \\ \end{bmatrix}\begin{bmatrix} V_\pi (1)\\ V_\pi(2)\\\vdots\\ V_\pi(n) \end{bmatrix}$
当 $\mathbf(I-\gamma P_\pi)$ 可逆时，
$V_\pi =(I-\gamma P_\pi)^{-1}R_\pi$
当状态空间较小时，可使用上述式子求解值函数，若状态空间很大，则需要用迭代法求解，如动态规划、蒙特卡诺、时序差分。