【强化学习】第一篇--马尔科夫决策过程

作者:王小草
笔记时间:2019年1月20日

1 马尔科夫性质与过程

1.1 马尔科夫性质

  • 马尔科夫性质即:
    系统的下一状态只与当前状态有关,与以前的历史状态无关。

  • 公式表达:
    image_1d1kgu69s1lbibljfd36n31c3v2l.png-4.5kB

  • 特点:

    • 当前状态蕴含所有相关历史信息
    • 一旦当前状态已知,历史信息将会被抛弃

1.2 马尔科夫过程

  • 马尔科夫过程即:
    该过程中所有状态都满足马尔科夫性。

  • 表示:
    马尔科夫过程可以用一个二元组表示(S, P)

    • S 是一个有限的状态集合
    • P 是状态之间的转移概率矩阵,P_ss’表示从状态s转移到状态s’的概率
      image_1d1kh78s91b41momrqs111sm3b32.png-3.6kB
  • 转移矩阵
    若马尔科夫过程有N个状态,则转移概率矩阵就是一个N*N的方正:
    image_1d1kh9em9js11fc91v5suqq1ohj3f.png-7.8kB

    转移概率矩阵的性质为:

    • (1)非负性:P_ij>0
    • (2)每行的和为1

    注意:每列的和不一定为1,该矩阵不一定是对称矩阵,即P_ij不一定等于P_ji

  • 示例
    image_1d1kho5ta1dc3ln81ucv6l81a6s59.png-57.9kB

    这是一个经典例子,表示一个学生学习,圆圈代表的是状态(刷facebook,class1,class2,class3, pass, sleep,泡pub);箭头代表的是状态之间的转移,箭头上的概率就是状态之间的转移概率,比如若是在刷facebook,下一个状态有0.9的概率还是在刷facebook, 只有0.1的概率去上class1,作孽啊;方框代表着终止状态,即一旦到达这个状态就停止了,不会再转移到其他状态。

2 马尔科夫奖励过程MRP

马尔科夫奖励过程比马尔科夫过程多两个元素:奖励函数与折扣因子。

  • 表示:
    马尔科夫奖励过程可以用四元组表示:M = < S, P, R, γ >

    • S 是一个有限的状态集合
    • P 是状态之间的转移概率矩阵,P_ss’表示从状态s转移到状态s’的概率
    • R 是一个奖励函数,是状态s转移到下一状态的奖励的期望
      image_1d1khjqlmlln1h42mh53vle414c.png-3kB
    • γ 是一个折扣因子,即未来的奖励在今天看来需要有打一个折扣,毕竟现在给你100万和10年后给你100万是不一样的嘛。
  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值