1.3 强化学习的核心——马尔科夫链和决策过程

编程小星星

已于 2024-08-11 15:32:41 修改

阅读量640

点赞数

分类专栏：强化学习？从入门到入土超详细教程！！！文章标签：学习机器学习

于 2024-08-11 15:18:06 首次发布

本文链接：https://blog.csdn.net/qq_55817565/article/details/141106044

版权

强化学习？从入门到入土超详细教程！！！专栏收录该内容

4 篇文章

订阅专栏

在强化学习（Reinforcement Learning, RL）中，马尔科夫链（Markov Chain）和马尔科夫决策过程（Markov Decision Process, MDP）是理解智能体如何在环境中进行决策的基础理论。它们提供了描述环境和智能体交互的数学框架，使得我们能够系统地研究和设计强化学习算法。

1. 马尔科夫链（Markov Chain）

马尔科夫链是一个描述随机过程的数学模型，其中状态的转移只依赖于当前状态，而与过去的历史无关。这种“无记忆性”特性被称为马尔科夫性质。

马尔科夫链的基本要素：

状态空间（State Space, S）：所有可能状态的集合，表示系统可能处于的不同状态。
状态转移概率（State Transition Probability, P）：从一个状态转移到另一个状态的概率。设当前状态为 $s_t$ ，下一状态为 $s_{t+1}$ ，那么状态转移概率表示为 $P(s_{t+1}|s_t)$ 。
初始状态分布（Initial State Distribution）：系统在时间 $t=0$ 时刻处于某个状态的概率分布。

马尔科夫链的性质：

马尔科夫链的最重要性质是其无记忆性，

这意味着在时间 $t+1$ 的状态仅依赖于当前时间 $t$ 的状态，而与之前的状态无关。这一特性大大简化了对系统行为的分析和预测。

实例：随机游走

一个简单的马尔科夫链实例是随机游走（Random Walk）。假设一个人在一维数轴上随机移动，每一步向左或向右移动的概率相等（例如，0.5）。在这种情况下，当前状态的下一步只取决于当前所在位置，而不取决于之前的轨迹。

2. 马尔科夫决策过程（Markov Decision Process, MDP）

马尔科夫决策过程是马尔科夫链的扩展，它不仅考虑状态转移，还引入了智能体的决策过程，即在给定状态下选择不同的行动（Action），从而影响未来的状态转移。

MDP的基本要素：

状态空间（State Space, S）：系统可能的所有状态集合。
行动空间（Action Space, A）：智能体在每个状态下可以采取的行动集合。
状态转移概率（State Transition Probability, P）：在状态 $s_t$ 采取行动 $a_t$ 后，转移到下一状态 $s_{t+1}$ 的概率。
奖励函数（Reward Function, R）：智能体在状态 $s_t$ 采取行动 $a_t$ 后，获得的即时奖励。
折扣因子（Discount Factor, γ\gammaγ）：用于度量未来奖励的重要性，范围在 [0, 1] 之间。通常用于处理长期决策问题。

马尔科夫决策过程的目标：

在MDP中，智能体的目标是找到一个策略（Policy），该策略可以最大化累积奖励。策略 π\piπ 定义了在每个状态 $s_t$ 下采取行动 $a_t$ 的规则，可以是确定性的，也可以是随机的。

累积奖励通常表示为回报（Return）

智能体的目标是最大化从初始状态开始的期望回报：

价值函数和最优策略：

为了找到最优策略，我们引入状态价值函数（State Value Function,）和行动价值函数（Action Value Function）：

状态价值函数 ：表示在状态 s下，按照策略行动所能获得的期望累积回报。
行动价值函数 ：表示在状态 s下采取行动 a后，按照策略行动所能获得的期望累积回报。

找到最优策略的过程通常涉及贝尔曼方程（Bellman Equation），这是一个递归关系，定义了价值函数的更新方式。通过迭代方法（如值迭代或策略迭代），我们可以求解最优价值函数，从而推导出最优策略。

3. 实例分析

实例1：棋盘游戏（如棋类游戏）

在棋盘游戏中，如国际象棋或围棋，状态空间包括棋盘上的所有可能配置，行动空间是当前状态下所有合法的棋步。每一步的状态转移是由玩家的动作决定的，奖励通常在游戏结束时根据胜负来给予。通过MDP框架，智能体可以学习最优策略，从而提高游戏水平。

实例2：机器人路径规划

在机器人路径规划中，状态空间是机器人的当前位置，行动空间是机器人可以移动的方向。奖励函数可以设定为到达目标位置时获得正奖励，撞墙或超出边界时获得负奖励。通过MDP，机器人可以学会在复杂环境中找到最优路径。

结论

马尔科夫链和马尔科夫决策过程为强化学习提供了理论基础，使得我们能够有效地建模和解决智能体在动态环境中的决策问题。通过理解这些基本概念，我们可以更好地设计和分析强化学习算法，为各种应用场景中的智能决策提供支持。

PS：小总结

马尔科夫性是对强化学习问题的一种简化的假设。前边讲到，我们假设t+1时刻的状态 $s_{t+1}$ 是由 $s_t$ 在执行动作 $a_t$ 时候得到的，这表示了一种状态转移关系，然而实际上，t+1时刻的状态不应该仅仅只由t时刻的信息来决定，还应该与更长的历史信息有关。

由此，引出一个问题，更长的历史信息到底是多长？多长才是合理的？针对不同的问题有不同的答案

同时，如何保证在更长的历史信息的情况下保持更高效的计算.？

虽然历史信息很重要，但是毫无疑问，当前时间不多状态信息更重要，起到了决定性的作用，所以在一般的强化学习问题中，我们可以近似地认为，当前时间步的状态和动作已经包含了历史中的关键信息，我们称此为“马尔科夫性”

强化学习有一个的单独分支研究“部分可观测性”，部分可观测性假设当前状态仅包含少量的有价值的信息，在此专栏中，我们不关注部分可观测性，我们假设所有的模型都满足马尔可夫性。