贝尔曼方程-人工智能及其应用-课程学习记录-4

最新推荐文章于 2024-06-27 00:58:50 发布

佚名ano

最新推荐文章于 2024-06-27 00:58:50 发布

阅读量775

点赞数 14

文章标签：人工智能学习

本文链接：https://blog.csdn.net/qq_37998735/article/details/139746548

版权

贝尔曼方程（Bellman Equation）是动态规划和强化学习中的一个核心概念，用于描述一个状态的价值函数（Value Function）与其后续状态的价值函数之间的关系。它能够帮助我们递归地定义并求解每个状态的价值，从而找到最优策略。

贝尔曼方程的基本形式

在一个马尔可夫决策过程（MDP）中，贝尔曼方程的基本形式如下：
$V^\pi_s=E[R_t+\gamma V^{\pi} (S_{t+1})|S_t=s]$
其中:

$V^\pi_s$ :在状态 $s$ 下按照策略 $\pi$ 行动的价值函数.
E:期望值运算符.
$R_t$ :在时间步t获得的即时奖励.
$\gamma$ :折扣因子，介于 0 和 1 之间，表示未来奖励的折扣率.
$S_{t+1}$ :在时间步t+1的状态.

最优贝尔曼方程
最优贝尔曼方程描述了在最优策略 $\pi^*$ 下，每个状态的最优价值函数 $V^*(s)$ :

$v^*(s)=max_{\pi} E[R_t+\gamma V^* (S_{t+1})|S_t=s]$
这个方程表明，一个状态的最优价值等于从该状态出发所能获得的即时奖励加上折扣后的下一个状态的最优价值的期望值

矩阵形式的贝尔曼方程
在一些情况下，我们可以将贝尔曼方程用矩阵形式表示

$v=R+\gamma Pv$
其中:

v:是一个包含所有状态价值的列向量.
R:是包含所有状态即时奖励的列向量.
$\gamma$ :是状态转移概率矩阵.

通过矩阵形式的贝尔曼方程，我们可以用线性代数的方法直接求解状态价值：
$(I-\gamma P)v=R\\ v=(I-\gamma P)^{-1})R$

介绍完贝尔曼方程的一系列形式过后,我们具体来理解一下贝尔曼方程的核心思想,贝尔曼方程通过递归定义状态的价值函数，我们通过提前确定好各种策略,包括即时奖励和目标点与出发点的初始价值,就可以帮助我们求解最优策略和最优价值, $V^\pi_s=E[R_t+\gamma V^{\pi} (S_{t+1})|S_t=s]$
这个式子中,计算了当前s状态下的价值,这个价值是由它所包含的未来行动带来的报酬所计算的,我们以gridworld为例:

对于如下一个3x3的列表,我们假定(0,0)和(2,2)分别是出发点和目标点,这9个格子分别表示9个状态,这些状态下我们可以进行的操作包括上下左右四个方向的移动,同时执行这些操作的概率一样,我们假定每次移动都一定会得到-1的即时奖励,同时如果移动方向无法前进,下一状态价值量就是现状态本身价值量,假设折扣因子 $\gamma$ =0.9,假定初始时目标价值为2,其余为0:

0 0 0
0 0 0
0 0 2

0	0	0
0	0	0
0	0	2

那么第一次迭代:

$V(0,0)=0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 0]=-1$
$V(1,0)=0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 0]=-1$
$V(2,0)=0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 0]=-1$
$V(0,1)=0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 0]=-1$
$V(1,1)=0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 0]=-1$
$V(2,1)=0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 2]+0.25\cdot [-1+0.9\times 0]=-0.55$
$V(0,2)=0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 0]=-1$
$V(1,2)=0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 0]+0.25\cdot [-1+0.9\times 2]=-0.55$

得到第一次迭代的grid:

-1 -1 -1
-1 -1 -0.55
-1 -0.55 2

-1	-1	-1
-1	-1	-0.55
-1	-0.55	2

以此类推可以继续迭代直至每一个位置的价值收敛

import numpy as np
import matplotlib.pyplot as plt
from matplotlib import colors

# 定义网格大小
grid_size = 3

V = np.zeros((grid_size, grid_size))
V[2, 2] = 2

# 定义折扣因子和阈值
gamma = 0.9
theta = 1e-4

# 定义奖励结构
reward = -1

def plot_grid(V, iteration):
    fig, ax = plt.subplots()
    cmap = colors.ListedColormap(['white', 'lightblue', 'blue'])
    bounds = [0, 0.5, 1, 1.5]
    norm = colors.BoundaryNorm(bounds, cmap.N)
    ax.imshow(V, cmap='coolwarm', interpolation='nearest')
    for i in range(grid_size):
        for j in range(grid_size):
            ax.text(j, i, f'{V[i, j]:.2f}', va='center', ha='center')
    plt.title(f'Iteration: {iteration}')
    plt.colorbar(ax.imshow(V, cmap='coolwarm', interpolation='nearest'))
    plt.show()

# 价值迭代算法
def value_iteration(V, grid_size, gamma, theta, reward):
    delta = float('inf')
    iteration = 0
    while delta > theta:
        delta = 0
        new_V = V.copy()
        for i in range(grid_size):
            for j in range(grid_size):
                if (i, j) == (2, 2):
                    continue
                v = V[i, j]
                values = []
                if i > 0:
                    values.append(reward + gamma * V[i-1, j])
                if i < grid_size - 1:
                    values.append(reward + gamma * V[i+1, j])
                if j > 0:
                    values.append(reward + gamma * V[i, j-1])
                if j < grid_size - 1:
                    values.append(reward + gamma * V[i, j+1])
                if i == 0:
                    values.append(reward + gamma * V[i, j])
                if j == 0:
                    values.append(reward + gamma * V[i, j])
                if i == grid_size - 1:
                    values.append(reward + gamma * V[i, j])
                if j == grid_size - 1:
                    values.append(reward + gamma * V[i, j])
                new_V[i, j] = np.array([0.25,0.25,0.25,0.25]).dot(np.array(values).T)
                delta = max(delta, abs(v - new_V[i, j]))
        V = new_V
        iteration += 1
        plot_grid(V, iteration)  # 可视化每次迭代
    return V

在这里插入图片描述

这个方程式中的一些概念可以这样理解,如果说我们把贝尔曼方程看成探险,目标点就是我们寻求的宝藏,但是在探险途中,我们每走一步或者说我们开车每过一段距离就要耗油,这个就可以看成即时奖励,表示我们做这个行动的固有收获,而下一状态的价值就是我们在探险走了一步后能得到的宝物价值,虽然可能没到目标点,但是因为离目标点近,我们也可以视作已经得到了一部分宝藏,而为了评估一个状态的价值,我们就是把我们可能的每一个动作得到的价值(固有收获+下一状态价值)乘以执行该动作的概率求和(也就是公式中的求期望),这里我有一个概念没有提到,那就是公式中的 $\gamma$ :折扣因子.

在上面我提到的gridworld例子中,我们设定折扣因子为0.9,但是在我们理解中,不带折扣的贝尔曼方程理解起来确实看上去没毛病,那么这个折扣因子有什么用呢?