强化学习-赵世钰(四):值迭代算法(Value iteration)、策略迭代算法(Policy iteration)、截断策略迭代算法(Truncated policy iteration)

一、值迭代算法(Value iteration algorithm)

 1、值迭代算法详细步骤

2、值迭代算法伪代码 

3、值迭代算法案例

通过两步就找到了最优策略。

二、策略迭代算法(Policy iteration algorithm)

1、策略迭代算法详细步骤

1.1 Step 1:Policy evaluation【目标:求解 v_π v_{\pi_k }

其中 j 表示v的第 j 次迭代;

Policy evaluation 过程中 π_k(a|s) 是确定的;

1.2 Step 2:Policy improvement【目标:求解 π_{k+1} \pi_{k+1}

 2、策略迭代算法伪代码

3、策略迭代算法案例 01

4、策略迭代算法案例 02

随机初始化\pi_0v_{\pi_0^0}

----> 通过Policy Evaluation步骤计算出 v_{\pi_0}

----> 通过Policy Improvement,计算出 \pi_1

----> 通过Policy Evaluation步骤计算出 v_{\pi_1}

----> 通过Policy Improvement,计算出 \pi_2

----> 通过Policy Evaluation步骤计算出 v_{\pi_2}

....

----> 通过Policy Improvement,计算出 \pi_{10}

----> 通过Policy Evaluation步骤计算出 v_{\pi_{10}}

5、策略迭代算法-现象

接近目标的状态先变好,远离目标的状态后变好。

三、Truncated policy iteration algorithm

1、值迭代(Value iteration)v.s. 策略迭代(Policy iteration)

2、Truncated policy iteration algorithm伪代码

3、Truncated policy iteration 收敛性

4、Truncated policy iteration 案例

 5、值迭代(Value iteration)v.s. 策略迭代(Policy iteration)结论

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值