马尔可夫决策

一、离散状态的马尔科夫决策

1. 奖励因子r

在马尔科夫决策中,有个奖励因子r,在计算总期望价值的时候,奖励因子r的次方数会逐步增加。对于这个的解释可以理解为:今天的一元钱在明天一般都会贬值。所以当某个状态s较晚到达时,要控制奖励因子使得获得的价值减少。

2. Bellman方程

\[ V^{\pi} = R(s) + \gamma \sum_{s^{'}\epsilon S } P_{s\pi(s)}(s^{'})V^\pi (s^{'}) \]

假设有n个状态,则可以列出n个Bellman方程,且共含有n个未知量,那么就可以通过解这个线性方程组得到每个状态下对应的价值函数的值;

3. 值迭代

1019353-20181119130950598-1673526784.png

4. 政策迭代

1019353-20181119130955798-1959999520.png

5. 对比

假如状态有n个,政策迭代在计算时,需要计算含有n个方程和n个变量的方程组,当n≤1000时,政策迭代比较适用,当n>1000时,值迭代效率会更高。

因为在政策迭代中,需要求解Bellman方程,当状态数变多时,就需要求解同等数量的方程,这是一个相当大的计算负荷,因此此时使用值迭代会更好。

6. 转移概率和奖励因子的获取

在实际情况中,对于MDP的五元组,转移概率常常是未知的。我们可以通过统计在每个状态下打到某个状态的转移次数来得到近似的转移概率。此外,有时状态s1无法转移到状态s2,为了避免出现0除的情况,可以用 1 / |S|替代其概率。

if R is unknown, we can also pick our estimate of the expected immediate reward R(s) in state s to be the average reward observed in state s.

7. MDP求解全过程

1019353-20181119130957909-1492964933.png

二、连续状态的马尔可夫决策

对于连续型的状态,可以设定一定量的区间,使其离散化,将连续型的MDP变成离散型的MDP来解决。但是离散化通常而言表现都不是很好,数据分布的多样性被消除了,因此就无法学习到更深层次的数据的潜在信息。离散化还可能导致出现维数灾难。

1、拟合值迭代算法

1019353-20181119130959493-1706858406.png

2、近似政策迭代算法

转载于:https://www.cnblogs.com/CSLaker/p/9985391.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值