(斯坦福机器学习课程笔记)马尔可夫决策

这篇博客介绍了马尔可夫决策模型的关键概念,包括动作集合、状态集合、折损因子、状态转移概率和回报函数,并通过打砖块游戏举例说明。文章探讨了策略π的获取,涉及策略评估的值函数和最优值函数,以及值迭代和策略迭代两种算法。此外,还简要提及了Q学习及其Q函数。
摘要由CSDN通过智能技术生成

马尔可夫决策内容较多,此学习笔记仅在重要点作简要记录备忘,逻辑性不强。如要重新学习马尔可夫决策,此学习笔记可能不适合,请见谅。

马尔可夫决策模型有5个参数; A,S,Psa,γ,R(s,a) 其中:
-A表示动作集合
-S表示状态集合
- γ 表示折损因子
- Psa 表示在状态 s 采取a行动后,下一状态是状态集合S里各个状态的概率
- R(s,a) 在状态s采取a行动的回报。

例如,我们用手柄玩打砖块的游戏:
这里写图片描述

-A={左,右},注意,这里的动作集合左,右均指手指按手柄的动作。
- S={ s1,s2,s3} 小球的位置,速度大小和方向,砖块的数量和位置以及板的位置均会影响状态。因此状态集合的数量是很大的。
- γ 表示折损因子
- Psa ,指在状态s,手指对手柄作出了动作a(如左)后,模型进入下一个状态的概率。一般而言,当手指作出了向左的动作,模型会进入板向左对应的状态。但有可能手柄或者其他硬件出问题,相反进入了向右所对应的状态。因此这里 Psa 有很大的概率= s , Psa 有很小的概率= s
- R(s,a) 一般R只和s有关,与动作无关,则 R(s,a) 可以用 R

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值