value iteration和Q-learning算法

半月夏微凉

已于 2022-03-30 21:11:03 修改

阅读量2.3k

点赞数 4

分类专栏：强化学习及深度强化学习文章标签：人工智能

于 2022-03-22 19:19:51 首次发布

本文链接：https://blog.csdn.net/u010705932/article/details/123668790

版权

本文深入介绍了强化学习中的两种基础算法——Value Iteration和Q-learning，以及与之相关的马尔可夫决策过程（MDP）。文章详细阐述了MDP的构成要素，包括状态、动作、转移函数、奖励函数和折扣因子。接着，解释了值函数和值迭代算法，用于找到最优策略。最后，对比了Q-learning和Deep Q-learning，强调了后者在处理大型状态空间和实际应用中的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Value iteration 和 Q-learning 构成了强化学习 (Reinforcement Learning, RL) 的两个基本算法。过去 10 年 RL 中的许多惊人壮举，例如 Atari 的 Deep Q-Learning 或 AlphaGo，都植根于这些基础。在这篇博客中，我们将介绍 RL 用来描述世界的基础模型，即马尔可夫决策过程 (Markov decision process, MDP)，以及执行 RL 的两种算法：value iteration 和 Q-learning。在这篇博文结束时，您应该能够理解 value iteration 和 Q-learning 之间的联系，以及如何使用这些算法中的任何一种来学习最优策略。

这篇文章分为三个部分：

Markov decision processes
Value functions and Value iteration
Q-learning and Deep Q-learning

Markov Decision Processes

MDP 是一个 5 元组，描述由以下五个元素组成的环境：

States: State (通常表示为 $s$ ，译为状态) 是agent (一般译为智能体) 可以存在的世界上任何预定义的瞬时实例。在本文的其余部分，我们将使用变量 $S$ 来表示世界上所有可能状态的集合，其中 $s\in S$ 指的是单个状态。
Actions: Action (通常表示为 $a$ ，译为动作)是由agent促成的事件，它可以将其从一种状态转换到另一种状态，前提是这种转换是可能的MDP。我们将使用 $A$ 来表示世界上所有可能的动作的集合，其中 $a\in A$ 指的是单个动作。我们注意到，动作可能没有确定性的后果。例如，掷硬币可能不会每次都给您相同的结果！动作具有确定性效果的程度由转移函数 (transition function) 描述。
Transition function: Transition function (通常表示为 $P$ 或 $T$ ，译为转移函数) 是一个函数，它定义了在给定当前状态和有动作的情况下移动到特定下一个状态的概率。转移函数在数学上定义如下， $T:S\times A\times S' \rightarrow [0,1]$ .
Reward: Reward function (通常表示为 $R$ ，译为奖励函数) 指定了一个实数值，该数值定义了处于某个状态、采取一个动作并转移在下一个状态的功效或“好”的衡量标准。与转移函数类似，奖励定义如下， $R:S\times A\times S' \rightarrow \mathbb{R}$ . 请注意，您最终进入的状态可能是无法控制的，因为状态转换可以是动态的。
Discount Factor: 可以使用 $\gamma$ 指定折扣因子 (discount factor)，其中 $\gamma\in [0,1)$ 。注意折扣因子非包含上限（即 $\gamma\neq 1$ ）。不允许 $\gamma = 1$ 允许 MDP 在数学上更加稳健。具体来说，RL 算法的目标通常是随着时间的推移最大化折扣奖励。考虑无限时间(infinite horizon) MDP（即 MDP 永远不会结束）的情况，其中奖励总是正的。如果折扣因子 $\gamma$ 等于 1，那么未来折扣奖励的总和将是无限的，这使得 RL 算法难以收敛（即，知道它们何时可以停止确定在每个状态下应该采取哪些动作）。因此， $g a m m a$ 的选择对于 RL 算法的成功至关重要，例如 Q-learning 和 value iteration。

您可能已经阅读过一个称为马尔可夫链(Markov chains)的概念。虽然本文不会涉及马尔可夫链，但了解马尔可夫链和马尔可夫决策过程之间的区别很重要，因为这两个概念共享马尔可夫属性(markov property)。

从根本上说，马尔可夫链由除了动作、奖励和折扣因子的马尔可夫决策过程的组成部分组成。马尔可夫链中的agent无法控制他们的动作，是由世界在控制agent的行动。在马尔可夫决策过程中，agent对结果有影响。因此，马尔可夫链的转移函数被简单地定义为， $\times S' \rightarrow [0,1]$ .

Markov Property: 当下一个状态仅取决于当前状态和当前动作并且独立于之前的状态和动作的历史时，马尔可夫属性成立。

Nota bene: 在某些 MDP 中，您可能会看到初始状态分布 (initial state distribution) 包含在 MDP 中。虽然这仍然是一个有效的表示，但在本博客中，我们将保持对初始状态分布的不可知论。

Value functions 和 Value Iteration

Value function (通常表示为 $V (s)$ ，译为值函数) 是对给定 MDP 和策略 (policy, 描述agent在每个状态中采取哪些动作) 的任何给定状态 $s$ 可以收到的预期奖励的度量。正式地，一个策略 (表示为 $\pi : S \to [0,1]^{|A|}$ ) 是以状态 $s$ 为条件的动作 $a\in A$ 的概率分布。这个博客中，我们将考虑确定性的策略 (即对于单个动作 $a$ ， $\pi(s,a)=1$ ；而对于其他动作 $a'\neq a$ ， $\pi(s,a')=0$ )。定义了策略后，我们现在可以在数学上定义策略的值函数：