【十六】马尔科夫决策过程

在之前的教程中,我们首先学习了监督学习,如logistic方程、支持向量机的方法,又学习了无监督学习,如聚类等算法。从本讲开始,我们将进入强化学习课程的学习,我们首先将接触的是马尔科夫决策过程。


马尔科夫决策过程 Markov Decision Process MDP

一个马尔科夫决策过程常由一个五元组tuple描述,为(S,A,{Psa},γ,R),各元素意义如下:

·S为状态States的集合,如在直升机控制问题中,S可用来描述直升机的位置、方向等状态;

·A为动作Actions的集合,如用来描述直升机所有可行的运行方向;

·{Psa}为转移概率矩阵,表示在状态s的情况下,如果进行动作a,转移到下一状态的概率;

·γ是一个大于等于0,小于1的值,称为折扣因子Discount Factor

·R是一个由状态和动作到实数的映射,称为奖励方程Reward Function

一个典型的马尔科夫动态决策过程为:我们由状态集S中的一个状态s0初始,选择动作集A中的一个动作a0,此时,下一状态s1的概率分布服从转移概率矩阵Ps0a0,此时我们随机选择一个状态s1,然后选择一个动作a1,从而得到状态s2的概率分布,这一过程可通过下图描述


在上述过程的影响下,我们可定义回报函数Payoff Function

  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值