强化学习算法复现（二）：动态规划_杰克租车问题【价值迭代】

最新推荐文章于 2022-10-15 00:54:24 发布

保护我方vivian

最新推荐文章于 2022-10-15 00:54:24 发布

阅读量1.6k

点赞数 2

分类专栏：强化学习文章标签：强化学习算法 python

本文链接：https://blog.csdn.net/qq_42138927/article/details/109241623

版权

价值迭代的思想是改变最优价值函数，使其包括对所有可能性动作的评估。这样我们就可以只关注value function的收敛过程，只要value function达到最优，那策略也达到最优，value function没有最优，策略也还没有最优。

待value function收敛以后在进行决策，从而简化了迭代步骤。

可视化过程如下动图所示：

在这里插入图片描述

from matplotlib import pyplot as plt
import numpy as np
from matplotlib import animation
from scipy.stats import poisson  # 统计学的包，用于生成泊松分布

plt.rcParams['font.sans-serif'] = ['SimHei']  # 正确显示中文
plt.rcParams['axes.unicode_minus'] = False  # 正确显示正负号


#初始化
poisson_cache = dict()
x = np.arange(0, 21)
y = np.arange(0, 21)
x, y = np.meshgrid(x, y)

value = np.zeros((21, 21))
max_value_change = 100
policy = np.zeros(value.shape, dtype=np.int)  # 存储策略【0，1，2……20】

fig = plt.figure(figsize=(10, 5))

ax1 = fig.add_subplot(1, 2, 1, projection='3d')
ax2 = fig.add_subplot(1, 2, 2, projection='3d')

def init():                                     # 画布坐标轴范围初始化

    ax1.set_xlim([0, 20])
    ax1.set_ylim([0, 20])
    ax1.set_zlim([-

最低0.47元/天解锁文章

保护我方vivian

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
强化学习算法复现（二）：动态规划_杰克租车问题【价值迭代】

价值迭代的思想是改变最优价值函数，使其包括对所有动作的评估。这样我们就可以只关注值函数的收敛过程，只要值函数达到最优，那策略也达到最优，值函数没有最优，策略也还没有最优。简化了迭代步骤。...
复制链接

扫一扫

专栏目录