强化学习中的Sarsa与Q学习算法对比-CSDN博客

本文链接：https://blog.csdn.net/m0_53198858/article/details/130960298

3-1 构成强化学习的马尔可夫决策过程中的四元组有哪些变量？
1.状态：状态表示智能体在环境中的特定情境或条件。在每个时间步，智能体观察到的状态用来做出决策。状态可以是离散的或连续的。
2.动作：动作表示智能体可以采取的行为或决策。在每个时间步，智能体根据当前的状态选择一个动作执行。动作可以是离散的或连续的。
3.奖励：奖励是智能体根据它所采取的动作和所处的状态获得的反馈信号。奖励可以是立即的，也可以是延迟的。智能体的目标是通过最大化累积奖励来学习最优策略。
4.转移概率：转移概率定义了在给定当前状态和采取某个动作后，智能体将转移到下一个状态的概率分布。它表示了环境的动态特性。转移概率可以表示为 P(s’|s, a)，其中 s’ 是下一个状态，s 是当前状态，a 是采取的动作。
3-3 请描述基于Sarsa算法的智能体的学习过程。
1.初始化：开始时，智能体会初始化一个状态值函数或动作值函数，以及策略函数。
2.观察状态：智能体观察当前的状态，即环境的某个状态。
3.选择动作：基于当前的状态和策略函数，智能体选择一个动作来执行。
4.执行动作：智能体执行选定的动作，并与环境进行交互。
5.观察奖励和下一个状态：智能体接收环境返回的奖励信号，以及进入的下一个状态。
6.更新值函数：根据当前的状态、动作、奖励和下一个状态，智能体使用Sarsa算法的更新规则来更新值函数的估计。
7.更新策略：根据更新后的值函数和一定的策略更新规则，智能体更新策略函数。
8.循环迭代：重复步骤2到步骤7，智能体不断与环境交互，更新值函数和策略函数。
9.收敛或达到终止条件：通过迭代交互和更新，智能体的值函数和策略函数逐渐优化，直到达到学习目标或满足终止条件。
Sarsa算法的核心思想是基于当前状态和动作的值函数进行更新，并且在下一个状态下采取下一个动作时也使用同样的策略（例如ε-greedy策略）来选择动作。这使得Sarsa算法适用于探索和利用平衡的问题。通过不断迭代和更新，Sarsa算法可以学习到最优的值函数和策略函数，从而使智能体做出更优的决策和行动。
3-4 Q学习算法与Sarsa算法的区别是什么？
1.更新方式：Q学习算法使用的是离策更新，而Sarsa算法使用的是同策更新。
Q学习算法的更新方式是基于最大化下一个状态的最优动作的值函数，即使用了贪心策略。它根据当前状态、执行的动作、奖励和下一个状态的最大动作值来更新值函数。这种更新方式使得Q学习算法对策略的依赖性较小，更关注于学习最优值函数。
Sarsa算法的更新方式是基于当前策略选择的动作的值函数，即使用了ε-greedy策略。它根据当前状态、执行的动作、奖励和下一个状态的策略选择的动作值来更新值函数。这种更新方式使得Sarsa算法在学习过程中考虑了策略选择的影响，更加关注于学习策略价值。
2.策略选择时机：Q学习算法的策略选择是在学习过程中更新值函数之前进行的，而Sarsa算法的策略选择是在学习过程中更新值函数之后进行的。
Q学习算法的策略选择是基于当前状态的值函数，它会选择具有最高动作值的动作来执行，即使用贪心策略。这样可以确保在学习过程中选择最优的动作。
Sarsa算法的策略选择是基于当前状态的值函数，它会使用ε-greedy策略，以一定概率选择最高动作值的动作，以一定概率进行探索选择其他动作。这样可以在学习过程中平衡探索和利用，有助于更全面地探索环境。
3-5 同策略和异策略的区别是什么？
同策略算法关注于学习当前策略的价值或优势，因此其值函数的更新是基于当前策略的行为和结果。典型的同策略算法包括Sarsa算法和Expected Sarsa算法。
异策略算法更加灵活，可以学习任意目标策略的值函数，即使在生成数据时使用不同的行为策略。这使得异策略算法在探索和利用之间能够更好地平衡。典型的异策略算法包括Q学习算法和重要性采样等方法。

蘑菇书习题第三章