David Silver 第二讲MDP基本概念(通俗理解)

David Silver 第二讲MDP基本概念

本文只是作者个人理解,如有错误,欢迎各位指正。

一、基本定义

MDP过程是一个五元组——状态空间+行为空间+状态转移概率空间+奖励+折扣因子

其中,状态空间,折扣因子类比于MRP(马尔可夫奖励过程)

对于,行为空间:一组有限行为的集合,例:走迷宫游戏的(上下左右四个动作)构成行为空间

           状态转移概率:与MP(马尔可夫过程)和MRP(马尔可夫奖励过程)不同,MDP加入了行为(Action)的影响。例:无人操控的小船状态转移完全服从传统的状态转移矩阵,即P_{ij}=P\left \{ S_{t+1}=j|S_{t}=i \right \},但是对于有人操控的小船,状态转移受到了人的影响,此时P_{ij}=P\left \{ S_{t+1}=j|S_{t}=i,A_{t}=a \right \}。注意:这里人的行为(即a)对状态转移的影响是概率事件,也就是说,小船在状态i的时候加入人的行为a,小船下一个状态也是随机的,只不过这个随机概率和没人操控时小船状态变化的随机概率不一样。

           奖励:MRP中的奖励定义为:R_{s}=P\left \{ R_{t}|S_{t}=s \right \},MDP加入了行为(Action)的影响。简单理解:身处状态s,系统并不会给Agent奖励,而是身处状态s并做动作a,系统才会给Agent奖励。

引用David Silver的Student MDP例子说明:

1、状态空间:包含五个状态:1~5,比较容易理解;

2、行为空间:{FaceBook  Study   Pub    Quit};

3、状态转移概率:例:P_{12}=P\left \{ S_{t+1}=2|S_{t}=1,A_{t}=Study \right \}=1;这里=1是一个巧合,即只要在状态1下学习必定到达状态2

 正常一点的例子:

P_{32}=P\left \{ S_{t+1}=2|S_{t}=3,A_{t}=pub\right \}=0.4P_{31}=P\left \{ S_{t+1}=1|S_{t}=3,A_{t}=pub\right \}=0.2P_{32}=P\left \{ S_{t+1}=2|S_{t}=3,A_{t}=pub\right \}=0.4

这里表示在状态3下进行Pub动作可以到达1,2,3中任一个状态,且服从0.2,0.4,0.4的概率分布,这个就是上面的公式P_{ij}=P\left \{ S_{t+1}=j|S_{t}=i,A_{t}=a \right \}

即在状态i下加入人的行为a,下一个状态是随机的。

4、奖励:(状态-动作)二元组来决定奖励。

             (1) 不同状态下做相同动作的奖励不同。例:状态3下做Study的动作奖励为10,状态1下做Study的动作奖励为-2

             (2) 同一状态下做不同动作的奖励不同。例:状态1下做Study的动作奖励为-2,状态1下做FaceBook的动作奖励为-1

             所以在MDP中,奖励和所处状态采取行为都有关。

二、策略Policy

Writing...

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值