强化学习基础——形象化解释值函数含义以及期望的意义

最新推荐文章于 2023-10-28 08:21:42 发布

启人zhr

最新推荐文章于 2023-10-28 08:21:42 发布

阅读量1.4k

点赞数 6

分类专栏：强化学习理论与实践强化学习文章标签：强化学习动态规划期望

本文链接：https://blog.csdn.net/qq_27008079/article/details/100919261

版权

1.值函数定义

1.1 V函数

我们先看一下经典的最短路问题，假设我们要求出起点s到终点g的最短路

我们定义 $V^\ast(s)$ 为 $s$ 到终点 $g$ 的最短路， $V^\ast(f)$ 为 $f$ 到终点 $g$ 的最短路，以此类推，为了求出这个最短路，我们从终点开始算起：
$\begin{aligned} V^\ast(g)&=0 \\ V^\ast(f)&=1+V^\ast(g)=1\\ V^\ast(d)&=min\{3+V^\ast(g),1+V^\ast(f)\} \end{aligned}$

对终点 $g$ 来说，自己到自己的最短路为0。

对顶点 $f$ 来说，只有它自己和终点 $g$ 有路径，故顶点 $f$ 到 $g$ 的最短路由这条路径的权重和 $V^\ast(g)$ 相加

对顶点 $d$ 来说，有两个选择，可以选择权值为3的路径到 $g$ ，也可以选择权值为1的路径到 $f$ ，取这两种选择里最优选择即可

这样从后往前计算，我们可以得到起点 $s$ 到终点 $g$ 的最短路 $V^\ast(s)$

1.2 Q函数

有时我们除了要知道最短路，还要知道最短路这条路径的走向（即怎么走到终点），故我们还需要一个变量记录当前顶点的选择，我们定义 $Q^\ast(s,a)$ 为从 $s$ 顶点选择 $a$ 路径到终点 $g$ 的最短路，拿图例来说，顶点 $s$ 出发有两条路径可选，一条权值为1到达 $b$ ，记作 $a_1$ ，一条权值为2到达 $c$ ，记作 $a_2$ （在强化学习中，我们可以将顶点定义为状态，选择路径定义为动作）

如果 $s$ 选择 $a_1$ 路径，那么 $Q^\ast(s,a_1)$ 由这条路权值和 $b$ 到终点的最短路决定
$Q^\ast(s,a_1)=1+V^\ast(b)$
同样对于 $a_2$ 路径，有
$Q^\ast(s,a_2)=2+V^\ast(c)$

最低0.47元/天解锁文章

启人zhr

关注

6
点赞
踩
12

收藏

觉得还不错? 一键收藏
2
评论
强化学习基础——形象化解释值函数含义以及期望的意义

1.值函数定义1.1 V函数我们先看一下经典的最短路问题，假设我们要求出起点s到终点g的最短路我们定义V∗(s)V^\ast(s)V∗(s)为sss到终点ggg的最短路，V∗(f)V^\ast(f)V∗(f) 为fff到终点ggg的最短路，以此类推，为了求出这个最短路，我们从终点开始算起：V∗(g)=0V∗(f)=1+V∗(g)=1V∗(d)=min{3+V∗(g),1+V∗(f)}\...
复制链接

扫一扫

专栏目录