51cto强化学习（1）马尔可夫与贝尔曼方程学习笔记

最新推荐文章于 2024-05-11 22:43:53 发布

魏小侠

最新推荐文章于 2024-05-11 22:43:53 发布

阅读量1.5k

点赞数 3

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/weisiqi520/article/details/83507548

版权

强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

马尔可夫决策的要求：

1，能够检测到理想状态：比如我们想让强化学习算法来实现走迷宫，最后这个迷宫一定是可以走出的，倘若迷宫没有出口便不可以套用马尔可夫。

2，可以多次尝试：依然使用走迷宫的例子，我们可以在走迷宫失败的时候进行多次尝试，而不是失败以后就停止。

3，系统的下个状态只和当前状态信息有关，而和之前的更早的状态无关，在决策的过程中还和当前采取的动作有关：马尔可夫的条件是，下一个状态st+1仅仅和st有关而和st-n（n>0）无关，同时还和st状态下的行动at有关。仅仅和st和at是有关的。例如走迷宫这个问题，下一步的状态（位置）仅仅和当前的位置和当前走的方向有关，和其余都是没关系的。

在此解释一下P，R，y的概念：

P：例如当前状态s下，可以经过动作a1到达状态s1，经过动作s2到达状态s2。智能体agent在状态可以执行动作a1也可以执行a2，并且两者各自有自身的概率，而P便是反应这种概率的。p（s1|s，a1）就是反应“在s状态下执行动作a1到达状态s1的概率”，同理“p（s2|s，a2）就是反应”在s状态下执行动作a2到达状态s2的概率”

R：智能体在执行动作后，会得到即时奖励的集合。举例说明：小明现在写作业便会得到一块糖吃，小明现在看电视就会被拿走一块糖，那么两者的即时奖励就是{+1糖，-1糖}

y：衰减系数γ，系数γ是一个介于0和1之间的数字。反应的是未来的奖励和现在的奖励之间的衰减关系。举例说明，现在10元钱可以买10个鸡蛋，但是未来十元钱可能只能买5个鸡蛋，但是我们无法知道未来的情况，所以我们假设衰减系数γ是0.5。就是用现在的情况来预计未来的情况

马尔可夫过在我理解就是：智能体在状态s0下选择动作a0，到达状态s1；s1下智能体选择a1到达状态s2；以此类推。

在状态s下选择什么动作，我认为是根据p来选择的。

状态价值函数：在t时刻，状态s下所能得到未来回报的期望，用来衡量每一个状态或者动作-状态的优劣。

强化学习的根本目的就是获得最大的累计奖励，而状态价值函数就是用来描述累计奖励的量。

策略：策略其实是一个动作的集合，例如“把大象放进冰箱需要三步：打开冰箱门，把大象放进去，关上冰箱门”这就是一个策略，一个动作的集合。

最优价值函数：其实就是所有的策略中，最高的累积收益。策略有很多，累计收益也各不相同，最优价值函数反应的就是累计收益最高的那个。

贝尔曼方程：将当前的价值分解为当前的即时奖励和下一步的价值。类似于一个迭代的过程，自举的过程。

在贝尔曼方程中，我们要求，状态集合S和动作集合A都是有限的，因为有限的我们可以通过数学方法，计算期望。下面解释一下以上公式中的各个量：

Π：反应的是当前状态s下，所选择各个不同动作a的概率

p：反应的是在当前状态下，选择动作a进入到下一个状态的概率

依旧，贝尔曼方程的含义仍然是：当前的价值等于当前的即时价值，加上下一个状态的价值，但是下一个状态的价值要乘以一个衰减系数γ，因为未来都会存在衰减。

公式第一项就是：所有即时奖励的期望。Π（当前状态s下，所选择各个不同动作a的概率）乘以r（即时奖励）得到的就是即时奖励的期望

公式的第二项就是：下一步价值的期望。p(在当前状态下，选择动作a进入到下一个状态的概率)乘以v(下一个状态的价值)得到的就是下一步价值的期望。

两项加在一起就是当前的价值

通过实例来理解贝尔曼方程：

图中每一个圆形代表一个状态，而方块代表的是终止状态。我们下面用贝尔曼方程计算红色圆形的价值

可见红色圆形可以向上走到达最终状态，也可以向下走到达小圆点状态。我们假设两个动作的概率都是0.5

向上走：即时奖励可见是R+10，但是到达最终状态以后没有下一步状态，所以向上走的价值就是向上走的概率乘以向上走的即时奖励，也就是0.5*10

向下走：即时奖励就是R+1，向下走以后没有到达最终状态，所以我们还要继续看下一步状态。可见走到小圆点以后还有三种状态，其概率分别为0.2，0.4，0.4，他们各自对应的下一步价值分别是-1.3，2.7，7.4。所以向下走的价值便是：概率*即时奖励+概率*下一步的价值

最后的公式就是图中最上面的黑色字体（本例中忽略衰减系数γ）

魏小侠

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
51cto强化学习（1）马尔可夫与贝尔曼方程学习笔记

马尔可夫决策的要求：1，能够检测到理想状态：比如我们想让强化学习算法来实现走迷宫，最后这个迷宫一定是可以走出的，倘若迷宫没有出口便不可以套用马尔可夫。2，可以多次尝试：依然使用走迷宫的例子，我们可以在走迷宫失败的时候进行多次尝试，而不是失败以后就停止。3，系统的下个状态只和当前状态信息有关，而和之前的更早的状态无关，在决策的过程中还和当前采取的动作有关：马尔可夫的条件是，下一个状态...
复制链接

扫一扫