强化学习系列(三):马尔科夫决策过程

一、前言

第二章中我们提到了多臂老 虎 ji问题,该问题只有一个state,需要选择一个action,不需要考虑在不同state下选择action的问题——(associative problem),即不需要考虑状态间的转移,以及action对一系列state的影响。但是在第一章强化学习简介中,我们提到强化学习过程可以看做一系列的state、reward、action的组合。本章我们将要介绍马尔科夫决策过程(Markov Decision Processes)用于后续的强化学习研究中。

二、马尔科夫过程(Markov Processes)

2.1 马尔科夫性

首先,我们需要了解什么是马尔科夫性:

这里写图片描述
当我们处于状态 S t S_t St时,下一时刻的状态 S t + 1 S_{t+1} St+1可以由当前状态决定,而不需要考虑历史状态。

未来独立于过去,仅仅于现在有关

将从状态s 转移到状态 s’ 的转移概率简写为 P s s ′ P_{ss'} Pss
这里写图片描述
那么所有状态间的转移关系可以由状态转移矩阵表示:
这里写图片描述

2.2 马尔科夫过程

马尔科夫过程也称为马尔科夫链,由一些具有马尔科夫性的量随机组成的记忆链,这些量之间有转移概率。如具有马尔科夫性的state可以组成马尔科夫链 S 1 , S 2 , . . . S_1,S_2,... S1,S2,....其定义如下:
这里写图片描述

2.3 小例子:student Markov Chain

以学生上课为例子,假设一学期只有三节课,那么在class 1的状态下有0.5的概率前往class 2,另外0.5的概率会去看Facebook。看Facebook会停不下来,所以有0.1的概率回到class1,而有0.9的概率继续看。假如我们从 class1到了class2,上课觉得无聊有0.2的几率会睡觉,另外0.8的概率咬牙坚持到class3。到了class 3 后,想到上课快上完了,去泡个吧(0.4 go to pub),然后喝断片了,忘了上课内容,会随机回到class1、class2、class3。从class 3有0.6的概率会通过考试,考试完了就肯定回去睡觉啦,在这里sleep是一个最终状态。
这里写图片描述

三、 马尔科夫决策过程

介绍了马尔科夫链后,自然有个疑问什么是马尔科夫决策过程(MDP)?
首先,我们介绍Markov Reward Process(MRP),再从MRP演变到MDP。

3.1 Markov Reward Process

最开始说到马尔科夫链是由一些具有马尔科夫性的量随机组成的记忆链,那么MRP就是关于价值的马尔科夫链。
这里写图片描述
和上面的关于state的马尔科夫链相比,增加了reward R R R 和discount γ \gamma γ(红色标出),我们已经知道reward的定义,那么为什么会有discount γ \gamma γ呢?

3.1.1 Return

在强化学习中,我们关注的不仅仅是当前的reward,因为状态的转移可能对未来的收益都有影响,所以我们关注的是总体reward之和:
这里写图片描述

这个式子好像不是单纯的reward之和啊!果然,这是一个有心机的reward之和,他包含了我们好奇的 discount γ \gamma γ。为什么要有这个呢?

  • 为了数学上使得reward之和收敛,此处选择了一个折扣因子 0 = < γ < = 1 0=<\gamma<=1 0=<γ<=1 .
  • 可能我们的模型(转移概率)不够完备,选择 γ \gamma γ 可以减小未来reward对return的影响
  • 另外,当 γ = 1
  • 22
    点赞
  • 61
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值