model-free:Monte Carlo Methods-prediction


前言

RL学习笔记——蒙特卡洛算法


Monte Carlo Methods(MC)

基于动态规划的求解值函数与策略需要知道环境的模型,也就是状态转移函数与奖励函数,而蒙特卡洛采样方法是不需要知道这些内容即可求解值函数与最优策略。

1.特点

MC方法直接从episodes的经验中进行学习,是基于model-free的算法,无需知道模型的转移函数,MC是从完整的episodes中进行学习,从一个状态出发到达最终状态中止,因此MC要求所有的episodes必须终止,其思想是平均回报代替价值。

2.策略评估

在给定策略 π \pi π下,从一系列的episodes经验中学习价值函数 v π v_{\pi} vπ,采样序列为 { S 1 , A 1 , R 2 , . . . . . S k } \{S_1,A_1,R_2,.....S_k\} {S1,A1,R2,.....Sk},计算带折扣的回报在这里插入图片描述
价值函数是回报的期望,MC策略评估采用每个状态的平均回报代替回报的期望。

3.first-visit MC策略评估

做法:针对某个状态 S i S_i Si,在一次episode当中,只考虑第一次出现该状态的回报,在该次episode后续当中再次出现则不考虑。例如:
在这里插入图片描述
对于第一个eposide当中的红色点的状态,在该次采样当中出现了两次,但在多次采样后计算红色点状态的平均回报时,第一个episode当中只采样第一次出现红色点状态的回报

4.every-visit MC策略评估

做法:针对某个状态 S i S_i Si,在一次episode当中,考虑每一次出现该状态的回报,多次采样后,对每个episode中出现过 S i S_i Si的回报求平均回报。

5.价值函数更新方式

采用增量式均值更新方式,如图所示:
在这里插入图片描述
在MC策略评估中的更新步骤如下:
在这里插入图片描述

总结

MC更新方式图示:
在这里插入图片描述在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值