蒙特卡罗方法

蒙特卡罗方法

动态规划中估计的是状态值,然后通过状态值来获取动作值,但在模型末知的情况下,
智能体不知道环境的所有状态,无法对状态值进行预估,导致无法通过状态值来获取动作值,
因些在免模型的情况下,我们将估计对象从V转变为Q。

蒙特卡罗方法是在进行一个阶段的采样后再更新值函数。

通过与环境互动评估策略 π π π的方法分为两大类别:
异同策略方法使智能体与环境互动时遵守的策略 π π π与要评估(或改进)的策略相同。
离线策略方法使智能体与环境互动时遵守的策略 b b b(其中 b ≠ π b≠π b̸=π)与要评估(或改进)的策略不同。
状态 s ∈ S s∈S sS在某个阶段中的每次出现称为 s s s一次经历

1、动作值评估:
有两种类型的蒙特卡洛 (MC) 的预测方法 :

首次经历 MC 将一个阶段的 q π ( s , a ) q_π(s,a) qπ(s,a)估算为 ( s , a ) (s,a) (s,a)首次经历之后的平均回报(即忽略与后续经历相关的回报);

所有经历 MC 将一个阶段的 q π ( s , a ) q_π(s,a) qπ(s,a)估算为 ( s , a ) (s,a) (s,a)所有经历之后的平均回报。

q ( s , a ) = 1 k ∑ i = 1 k r i q(s,a) = \frac{1}{k}\sum^k_{i=1}r_i q(s,a)=k1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值