马尔可夫决策过程(五)
最近学习了MDP,查看一些资料,本文翻译了维基百科http://en.wikipedia.org/wiki/Markov_decision_process。有许多地方翻译的不好,有翻译错的地方请多多谅解!欢迎给我留下意见,我会尽快更改!
扩展
部分可观测
主要文章: 部分可观察马尔可夫决策过程
假定当动作被采取时状态 s 是已知的;否则π(s)不能被计算。当这个假设是不正确的,此问题被称为部分可观测马尔可夫决策过程或POMDP的。
强化学习
如果概率或奖励不明,问题是一种强化学习 (Sutton和Barto,1998)。
为了对定义进一步函数有帮助,相当于首先采取动作对应 a ,然后继续优化(或根据目前策略一拥有的任何情况):
虽然这个功能也是未知的,在学习过程中经验是基于(s,a) 二元组的(连同其结果s'的 ),即“我是在状态s ,我尝试着做 a , s'发生了”)。因此,人们有一个数组Q和使用经验直接更新它。这就是所谓的Q-学习 。
强化学习的力量在于它有能力解决没有计算转移概率的马尔可夫决策过程;请注意,在价值和策略迭代中转移概率必要的。此外,强化学习可以结合函数逼近,从而可以解决一个非常大数量的状态问题。强化学习也可以轻而易举地在蒙特卡洛系统模拟器上进行。
另类符号
MDPs的术语和符号并非完不变的。有两个主要来源:一个来源侧重于最大化问题,比如经济学背景的,使用条件的行动,奖励,价值,通常称折扣因子 β 或 γ,而另一个来源则侧重于最小化问题,比如工程学和航空领域,使用条件的控制,成本,成本代价,通常称折扣因子α。此外,转化概率符号各不相同。
在这篇文章 | 替代 | 意见 |
动作 a | 控制 u |
|
奖励 R | 开销 g | g 是 R 负值。 |
值 V | 成本代价 J | J 为 V 的负值。 |
策略 π | 策略 μ |
|
折扣因子 | 折扣因子 α |
|
转换概率 Pa(s,s') | 转换概率 pss'(a) |
|
此外,转换概率有时写成 Pr(s,a,s') ,Pr(s'|s,a) 或者 ps's(a) 。
参见
Bellman的经济学应用方程。