51cto强化学习(1)马尔可夫与贝尔曼方程学习笔记

马尔可夫决策的要求:

1,能够检测到理想状态:比如我们想让强化学习算法来实现走迷宫,最后这个迷宫一定是可以走出的,倘若迷宫没有出口便不可以套用马尔可夫。

2,可以多次尝试:依然使用走迷宫的例子,我们可以在走迷宫失败的时候进行多次尝试,而不是失败以后就停止。

3,系统的下个状态只和当前状态信息有关,而和之前的更早的状态无关,在决策的过程中还和当前采取的动作有关:马尔可夫的条件是,下一个状态st+1仅仅和st有关而和st-n(n>0)无关,同时还和st状态下的行动at有关。仅仅和st和at是有关的。例如走迷宫这个问题,下一步的状态(位置)仅仅和当前的位置和当前走的方向有关,和其余都是没关系的。

在此解释一下P,R,y的概念:

P:例如当前状态s下,可以经过动作a1到达状态s1,经过动作s2到达状态s2。智能体agent在状态可以执行动作a1也可以执行a2,并且两者各自有自身的概率,而P便是反应这种概率的。p(s1|s,a1)就是反应“在s状态下执行动作a1到达状态s1的概率”,同理“p(s2|s,a2)就是反应”在s状态下执行动作a2到达状态s2的概率”

R:智能体在执行动作后,会得到即时奖励的集合。举例说明:小明现在写作业便会得到一块糖吃,小明现在看电视就会被拿走一块糖,那么两者的即时奖励就是{+1糖,-1糖}

y:衰减系数γ,系数γ是一个介于0和1之间的数字。反应的是未来的奖励和现在的奖励之间的衰减关系。举例说明,现在10元钱可以买10个鸡蛋,但是未来十元钱可能只能买5个鸡蛋,但是我们无法知道未来的情况,所以我们假设衰减系数γ是0.5。就是用现在的情况来预计未来的情况

马尔可夫过在我理解就是:智能体在状态s0下选择动作a0,到达状态s1;s1下智能体选择a1到达状态s2;以此类推。

在状态s下选择什么动作,我认为是根据p来选择的。

状态价值函数:在t时刻,状态s下所能得到未来回报的期望,用来衡量每一个状态或者动作-状态的优劣。

强化学习的根本目的就是获得最大的累计奖励,而状态价值函数就是用来描述累计奖励的量。

策略:策略其实是一个动作的集合,例如“把大象放进冰箱需要三步:打开冰箱门,把大象放进去,关上冰箱门”这就是一个策略,一个动作的集合。

最优价值函数:其实就是所有的策略中,最高的累积收益。策略有很多,累计收益也各不相同,最优价值函数反应的就是累计收益最高的那个。

贝尔曼方程:将当前的价值分解为当前的即时奖励和下一步的价值。类似于一个迭代的过程,自举的过程。

在贝尔曼方程中,我们要求,状态集合S和动作集合A都是有限的,因为有限的我们可以通过数学方法,计算期望。下面解释一下以上公式中的各个量:

Π:反应的是当前状态s下,所选择各个不同动作a的概率

p:反应的是在当前状态下,选择动作a进入到下一个状态的概率

依旧,贝尔曼方程的含义仍然是:当前的价值等于当前的即时价值,加上下一个状态的价值,但是下一个状态的价值要乘以一个衰减系数γ,因为未来都会存在衰减。

公式第一项就是:所有即时奖励的期望。Π(当前状态s下,所选择各个不同动作a的概率)乘以r(即时奖励)得到的就是即时奖励的期望

公式的第二项就是:下一步价值的期望。p(在当前状态下,选择动作a进入到下一个状态的概率)乘以v(下一个状态的价值)得到的就是下一步价值的期望。

两项加在一起就是当前的价值

通过实例来理解贝尔曼方程:

图中每一个圆形代表一个状态,而方块代表的是终止状态。我们下面用贝尔曼方程计算红色圆形的价值

可见红色圆形可以向上走到达最终状态,也可以向下走到达小圆点状态。我们假设两个动作的概率都是0.5

向上走:即时奖励可见是R+10,但是到达最终状态以后没有下一步状态,所以向上走的价值就是向上走的概率乘以向上走的即时奖励,也就是0.5*10

向下走:即时奖励就是R+1,向下走以后没有到达最终状态,所以我们还要继续看下一步状态。可见走到小圆点以后还有三种状态,其概率分别为0.2,0.4,0.4,他们各自对应的下一步价值分别是-1.3,2.7,7.4。所以向下走的价值便是:概率*即时奖励+概率*下一步的价值

最后的公式就是图中最上面的黑色字体(本例中忽略衰减系数γ)

 

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值