蘑菇书习题第三章

3-1 构成强化学习的马尔可夫决策过程中的四元组有哪些变量?
1.状态:状态表示智能体在环境中的特定情境或条件。在每个时间步,智能体观察到的状态用来做出决策。状态可以是离散的或连续的。
2.动作:动作表示智能体可以采取的行为或决策。在每个时间步,智能体根据当前的状态选择一个动作执行。动作可以是离散的或连续的。
3.奖励:奖励是智能体根据它所采取的动作和所处的状态获得的反馈信号。奖励可以是立即的,也可以是延迟的。智能体的目标是通过最大化累积奖励来学习最优策略。
4.转移概率:转移概率定义了在给定当前状态和采取某个动作后,智能体将转移到下一个状态的概率分布。它表示了环境的动态特性。转移概率可以表示为 P(s’|s, a),其中 s’ 是下一个状态,s 是当前状态,a 是采取的动作。
3-3 请描述基于Sarsa算法的智能体的学习过程。
1.初始化:开始时,智能体会初始化一个状态值函数或动作值函数,以及策略函数。
2.观察状态:智能体观察当前的状态,即环境的某个状态。
3.选择动作:基于当前的状态和策略函数,智能体选择一个动作来执行。
4.执行动作:智能体执行选定的动作,并与环境进行交互。
5.观察奖励和下一个状态:智能体接收环境返回的奖励信号,以及进入的下一个状态。
6.更新值函数:根据当前的状态、动作、奖励和下一个状态,智能体使用Sarsa算法的更新规则来更新值函数的估计。
7.更新策略:根据更新后的值函数和一定的策略更新规则,智能体更新策略函数。
8.循环迭代:重复步骤2到步骤7,智能体不断与环境交互,更新值函数和策略函数。
9.收敛或达到终止条件:通过迭代交互和更新,智能体的值函数和策略函数逐渐优化,直到达到学习目标或满足终止条件。
Sarsa算法的核心思想是基于当前状态和动作的值函数进行更新,并且在下一个状态下采取下一个动作时也使用同样的策略(例如ε-greedy策略)来选择动作。这使得Sarsa算法适用于探索和利用平衡的问题。通过不断迭代和更新,Sarsa算法可以学习到最优的值函数和策略函数,从而使智能体做出更优的决策和行动。
3-4 Q学习算法与Sarsa算法的区别是什么?
1.更新方式:Q学习算法使用的是离策更新,而Sarsa算法使用的是同策更新。
Q学习算法的更新方式是基于最大化下一个状态的最优动作的值函数,即使用了贪心策略。它根据当前状态、执行的动作、奖励和下一个状态的最大动作值来更新值函数。这种更新方式使得Q学习算法对策略的依赖性较小,更关注于学习最优值函数。
Sarsa算法的更新方式是基于当前策略选择的动作的值函数,即使用了ε-greedy策略。它根据当前状态、执行的动作、奖励和下一个状态的策略选择的动作值来更新值函数。这种更新方式使得Sarsa算法在学习过程中考虑了策略选择的影响,更加关注于学习策略价值。
2.策略选择时机:Q学习算法的策略选择是在学习过程中更新值函数之前进行的,而Sarsa算法的策略选择是在学习过程中更新值函数之后进行的。
Q学习算法的策略选择是基于当前状态的值函数,它会选择具有最高动作值的动作来执行,即使用贪心策略。这样可以确保在学习过程中选择最优的动作。
Sarsa算法的策略选择是基于当前状态的值函数,它会使用ε-greedy策略,以一定概率选择最高动作值的动作,以一定概率进行探索选择其他动作。这样可以在学习过程中平衡探索和利用,有助于更全面地探索环境。
3-5 同策略和异策略的区别是什么?
同策略算法关注于学习当前策略的价值或优势,因此其值函数的更新是基于当前策略的行为和结果。典型的同策略算法包括Sarsa算法和Expected Sarsa算法。
异策略算法更加灵活,可以学习任意目标策略的值函数,即使在生成数据时使用不同的行为策略。这使得异策略算法在探索和利用之间能够更好地平衡。典型的异策略算法包括Q学习算法和重要性采样等方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值