马尔可夫决策过程(五)

马尔可夫决策过程(五)

 

最近学习了MDP,查看一些资料,本文翻译了维基百科http://en.wikipedia.org/wiki/Markov_decision_process。有许多地方翻译的不好,有翻译错的地方请多多谅解!欢迎给我留下意见,我会尽快更改!

 

扩展

部分可观测

主要文章: 部分可观察马尔可夫决策过程

假定当动作被采取时状态 s 是已知的;否则πs不能被计算。当这个假设是不正确的,此问题被称为部分可观测马尔可夫决策过程或POMDP的。

强化学习

如果概率或奖励不明,问题是一种强化学习 SuttonBarto1998)。

为了对定义进一步函数有帮助,相当于首先采取动作对应 a ,然后继续优化(或根据目前策略一拥有的任何情况):

 

虽然这个功能也是未知的,在学习过程中经验是基于(s,a) 二元组的(连同其结果s' ),即我是在状态s ,我尝试着做 s'发生了)。因此,人们有一个数组Q和使用经验直接更新它。这就是所谓的Q-学习

强化学习的力量在于它有能力解决没有计算转移概率的马尔可夫决策过程;请注意,在价值和策略迭代中转移概率必要的。此外,强化学习可以结合函数逼近,从而可以解决一个非常大数量的状态问题。强化学习也可以轻而易举地在蒙特卡洛系统模拟器上进行。

另类符号

MDPs的术语和符号并非完不变的。有两个主要来源:一个来源侧重于最大化问题,比如经济学背景的,使用条件的行动,奖励,价值,通常称折扣因子 β γ,而另一个来源则侧重于最小化问题,比如工程学和航空领域,使用条件的控制,成本,成本代价,通常称折扣因子α。此外,转化概率符号各不相同。

在这篇文章

替代

意见

动作 a

控制 u

 

奖励 R

开销 g

g R 负值。

V

成本代价 J

J V 的负值。

策略 π

策略 μ

 

折扣因子

折扣因子 α

 

转换概率 Pa(s,s')

转换概率 pss'(a)

 

此外,转换概率有时写成 Pr(s,a,s') Pr(s'|s,a) 或者 ps's(a)

参见

  部分可观察马尔可夫决策过程

  动态规划

  Bellman的经济学应用方程。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值