斯坦福CS234增强学习——(3)无模型策略评估

在这里插入图片描述

Monte Carlo (MC) Policy Evaluation(蒙特卡罗策略评估)

在这里插入图片描述
在这里插入图片描述
episodic MDP(片段式马尔可夫决策过程)
情节式马尔可夫决策过程(Episodic Markov Decision Process)是马尔可夫决策过程(MDP)的一种变体,其中代理与环境的交互被划分为不同的片段或者阶段,每个片段都以终止状态结束。在每个片段内,代理会采取一系列动作,观察环境的反馈,并根据这些反馈进行学习和决策。情节式MDP与非片段式MDP相比,更加适用于一些特定的问题场景,比如棋类游戏中的局面、迷宫问题中的路径等。

非情节式MDP(Non-episodic MDP)指的是任务不以有限长度的情节形式出现的马尔可夫决策过程。在非情节式MDP中,任务可能是持续性的,智能体与环境之间的交互没有明确的开始或结束点,任务可能是无限期的。这个概念关注的是任务的持续性,而不是状态或动作空间的特性。

蒙特克罗策略评估仅适用于episodic MDP的原因
蒙特卡洛采样策略估计通常适用于片段式马尔可夫决策过程的主要原因是其特定的轨迹结构和终止状态。在片段式MDP中,每个轨迹都有一个终止状态,因此可以对每个轨迹的回报进行简单地累积求和,而不需要对无穷时间步长的回报进行估计。这样的特点使得蒙特卡洛方法能够有效地用于估计状态值函数或动作值函数。

具体来说,蒙特卡洛方法通过与环境交互并收集多个完整的轨迹(片段),然后根据这些轨迹的回报来估计状态值函数或动作值函数。由于每个轨迹都有一个终止状态,因此可以直接对每个轨迹的回报进行求和,并求取其平均值作为状态值函数或动作值函数的估计值。

在这里插入图片描述

First-Visit Monte Carlo(MC) on Policy Evaluation

在这里插入图片描述
在这里插入图片描述
均方误差(MSE)可以分解为偏置(Bias)、方差(Variance)和数据的不可约误差(Irreducible Error)之和。这个分解称为偏置-方差分解(Bias-Variance Decomposition)。不可约误差不能避免,一般不做考虑。
在这里插入图片描述

Every-Visit Monte Carlo(MC) on Policy Evaluation

在这里插入图片描述
当episodic数量一定时,由于 Every-Visit Monte Carlo(MC)的数据量N(s)更大,故该方法更准确;若调整episodic数量使得两种方法获得的数据量N(s)一致,则First-Visit Monte Carlo(MC)更准确,因为它是无偏的。

Incremental-Visit Monte Carlo(MC) on Policy Evaluation

在这里插入图片描述

stationary domain && Non-stationary domain

在强化学习中,“stationary domain”(稳态领域) 指的是环境或问题在时间上保持不变的情况。在稳态领域中,环境的特性保持恒定,不会随着时间的推移而发生变化。在稳态领域中,环境的特性不会随时间而变化,例如:

(1)固定的任务目标:环境中所需达到的任务目标保持不变。例如,一个固定的迷宫问题,智能体的任务是找到迷宫的出口,而这个任务目标在整个训练过程中保持不变。

(2)静态的环境动力学:环境的动态特性保持不变。例如,在一个固定的棋盘游戏中,棋盘的规则和布局在整个游戏过程中保持不变。

(3)不变的奖励结构:环境中的奖励结构保持不变。例如,在一个固定的驾驶模拟器中,各种驾驶行为对应的奖励值在整个模拟器的运行过程中不会发生变化。

(4)恒定的状态转移概率:环境中状态转移的概率保持不变。例如,在一个固定的天气预测问题中,不同天气之间的转移概率在整个预测过程中保持不变。

在稳态领域中,智能体可以利用环境的静态特性来学习和优化其策略,因为环境的特性不会随时间而变化。因此,稳态领域通常比非稳态领域更容易处理,因为不需要考虑环境的变化,并且可以更加专注于优化策略和学习最优行为。
“Non-stationary domain”(非稳态领域) 是指环境或问题中随着时间推移而发生变化的情况。在强化学习中,这意味着智能体面临的环境在时间上不是固定不变的,而是随着时间的推移可能发生变化。在非稳态领域中,环境的特性可能随时间而变化,例如:

(1)任务目标的变化:环境中所需达到的目标可能随时间而变化。例如,一个机器人可能需要在不同的时期执行不同的任务。

(2)环境动力学的变化:环境的动态特性可能会随时间发生变化。例如,一个金融市场可能在不同的季节或经济周期表现出不同的波动性。

(3)奖励结构的变化:环境中的奖励结构可能会随时间而改变。例如,在一个游戏中,随着玩家对策略的学习,游戏设计者可能会调整奖励的分配方式。

(4)状态转移概率的变化:环境中状态转移的概率可能会随时间变化。例如,在一个机器人导航的问题中,环境中的障碍物可能会移动或改变位置。

在非稳态领域中,智能体需要适应环境变化并调整其策略,以最大程度地获得奖励或达到目标。这可能需要智能体具有一定的学习能力和适应能力,能够在环境变化时快速调整策略。因此,在设计和开发强化学习算法时,需要考虑到环境的非稳态性,并且可能需要采取一些特定的方法来处理这种情况。
在这里插入图片描述

Summary

在这里插入图片描述

Temporal Difference Learning(时间差分学习)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Metrics to evaluate and compare algorithms

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值