强化学习笔记:MDP 重点!重点!

本文深入探讨了强化学习中的关键概念,包括贝尔曼方程(Bellman Equation)、Q函数的贝尔曼方程、贝尔曼期望方程以及预测与控制问题。在MDP(马尔科夫决策过程)中,政策评估(Policy Evaluation)和控制是核心任务。通过Policy Iteration和Value Iteration算法解决控制问题,涉及策略改进和最优价值迭代。此外,还对比了两种算法的区别。
摘要由CSDN通过智能技术生成

目录

0 Bellman Equation 

1 Q 函数的 Bellman equation

 2 Bellman Expectation Equation 

3 重点:Prediction and Control 

 4 重点:policy evaluation/Prediction

5 MDP Control

Bellman Optimality Equation

Value Iteration

Difference between Policy Iteration and Value Iteration


0 Bellman Equation 

接下来我们来求解这个价值函数。

首先我们用蒙特卡罗 (Monte Carlo) 的办法来计算它的价值函数。蒙特卡罗就是说当得到一个 MRP 过后,我们可以从某一个状态开始,把这个小船放进去,让它随波逐流,这样就会产生一个轨迹。产生了一个轨迹过后,就会得到一个奖励,那么就直接把它的折扣的奖励 g 算出来。算出来过后就可以把它积累起来,得到 return Gt。当积累到一定的轨迹数量过后,直接用 Gt 除以轨迹数量,就会得到它的价值。

1 Q 函数的 Bellman equation

 2 Bellman Expectation Equation 

通过对状态-价值函数进行一个分解,我们就可以得到一个类似于之前 MRP 的 Bellman Equation,这里叫 Bellman Expectation Equation,如式所示:

3 重点:Prediction and Control 

 MDP 的 predicti

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值