马尔可夫决策的要求:
1,能够检测到理想状态:比如我们想让强化学习算法来实现走迷宫,最后这个迷宫一定是可以走出的,倘若迷宫没有出口便不可以套用马尔可夫。
2,可以多次尝试:依然使用走迷宫的例子,我们可以在走迷宫失败的时候进行多次尝试,而不是失败以后就停止。
3,系统的下个状态只和当前状态信息有关,而和之前的更早的状态无关,在决策的过程中还和当前采取的动作有关:马尔可夫的条件是,下一个状态st+1仅仅和st有关而和st-n(n>0)无关,同时还和st状态下的行动at有关。仅仅和st和at是有关的。例如走迷宫这个问题,下一步的状态(位置)仅仅和当前的位置和当前走的方向有关,和其余都是没关系的。
在此解释一下P,R,y的概念:
P:例如当前状态s下,可以经过动作a1到达状态s1,经过动作s2到达状态s2。智能体agent在状态可以执行动作a1也可以执行a2,并且两者各自有自身的概率,而P便是反应这种概率的。p(s1|s,a1)就是反应“在s状态下执行动作a1到达状态s1的概率”,同理“p(s2|s,a2)就是反应”在s状态下执行动作a2到达状态s2的概率”
R:智能体在执行动作后,会得到即时奖励的集合。举例说明:小明现在写作业便会得到一块糖吃,小明现在看电视就会被拿走一块糖,那么两者的即时奖励就是{+1糖,-1糖}
y:衰减系数γ,系数γ是一个介于0和1之间的数字。反应的是未来的奖励和现在的奖励之间的衰减关系。举例说明,现在10元钱可以买10个鸡蛋,但是未来十元钱可能只能买5个鸡蛋,但是我们无法知道未来的情况,所以我们假设衰减系数γ是0.5。就是用现在的情况来预计未来的情况
马尔可夫过在我理解就是:智能体在状态s0下选择动作a0,到达状态s1;s1下智能体选择a1到达状态s2;以此类推。
在状态s下选择什么动作,我认为是根据p来选择的。
状态价值函数:在t时刻,状态s下所能得到未来回报的期望,用来衡量每一个状态或者动作-状态的优劣。
强化学习的根本目的就是获得最大的累计奖励,而状态价值函数就是用来描述累计奖励的量。
策略:策略其实是一个动作的集合,例如“把大象放进冰箱需要三步:打开冰箱门,把大象放进去,关上冰箱门”这就是一个策略,一个动作的集合。
最优价值函数:其实就是所有的策略中,最高的累积收益。策略有很多,累计收益也各不相同,最优价值函数反应的就是累计收益最高的那个。
贝尔曼方程:将当前的价值分解为当前的即时奖励和下一步的价值。类似于一个迭代的过程,自举的过程。
在贝尔曼方程中,我们要求,状态集合S和动作集合A都是有限的,因为有限的我们可以通过数学方法,计算期望。下面解释一下以上公式中的各个量:
Π:反应的是当前状态s下,所选择各个不同动作a的概率
p:反应的是在当前状态下,选择动作a进入到下一个状态的概率
依旧,贝尔曼方程的含义仍然是:当前的价值等于当前的即时价值,加上下一个状态的价值,但是下一个状态的价值要乘以一个衰减系数γ,因为未来都会存在衰减。
公式第一项就是:所有即时奖励的期望。Π(当前状态s下,所选择各个不同动作a的概率)乘以r(即时奖励)得到的就是即时奖励的期望
公式的第二项就是:下一步价值的期望。p(在当前状态下,选择动作a进入到下一个状态的概率)乘以v(下一个状态的价值)得到的就是下一步价值的期望。
两项加在一起就是当前的价值
通过实例来理解贝尔曼方程:
图中每一个圆形代表一个状态,而方块代表的是终止状态。我们下面用贝尔曼方程计算红色圆形的价值
可见红色圆形可以向上走到达最终状态,也可以向下走到达小圆点状态。我们假设两个动作的概率都是0.5
向上走:即时奖励可见是R+10,但是到达最终状态以后没有下一步状态,所以向上走的价值就是向上走的概率乘以向上走的即时奖励,也就是0.5*10
向下走:即时奖励就是R+1,向下走以后没有到达最终状态,所以我们还要继续看下一步状态。可见走到小圆点以后还有三种状态,其概率分别为0.2,0.4,0.4,他们各自对应的下一步价值分别是-1.3,2.7,7.4。所以向下走的价值便是:概率*即时奖励+概率*下一步的价值
最后的公式就是图中最上面的黑色字体(本例中忽略衰减系数γ)