在强化学习(Reinforcement Learning, RL)中,马尔科夫链(Markov Chain)和马尔科夫决策过程(Markov Decision Process, MDP)是理解智能体如何在环境中进行决策的基础理论。它们提供了描述环境和智能体交互的数学框架,使得我们能够系统地研究和设计强化学习算法。
1. 马尔科夫链(Markov Chain)
马尔科夫链是一个描述随机过程的数学模型,其中状态的转移只依赖于当前状态,而与过去的历史无关。这种“无记忆性”特性被称为马尔科夫性质。
马尔科夫链的基本要素:
-
状态空间(State Space, S):所有可能状态的集合,表示系统可能处于的不同状态。
-
状态转移概率(State Transition Probability, P):从一个状态转移到另一个状态的概率。设当前状态为
,下一状态为
,那么状态转移概率表示为
。
-
初始状态分布(Initial State Distribution):系统在时间
时刻处于某个状态的概率分布。
马尔科夫链的性质:
马尔科夫链的最重要性质是其无记忆性,
这意味着在时间的状态仅依赖于当前时间
的状态,而与之前的状态无关。这一特性大大简化了对系统行为的分析和预测。
实例:随机游走
一个简单的马尔科夫链实例是随机游走(Random Walk)。假设一个人在一维数轴上随机移动,每一步向左或向右移动的概率相等(例如,0.5)。在这种情况下,当前状态的下一步只取决于当前所在位置,而不取决于之前的轨迹。
2. 马尔科夫决策过程(Markov Decision Process, MDP)
马尔科夫决策过程是马尔科夫链的扩展,它不仅考虑状态转移,还引入了智能体的决策过程,即在给定状态下选择不同的行动(Action),从而影响未来的状态转移。
MDP的基本要素:
-
状态空间(State Space, S):系统可能的所有状态集合。
-
行动空间(Action Space, A):智能体在每个状态下可以采取的行动集合。
-
状态转移概率(State Transition Probability, P):在状态
采取行动
后,转移到下一状态
的概率。
-
奖励函数(Reward Function, R):智能体在状态
采取行动
后,获得的即时奖励 。
-
折扣因子(Discount Factor, γ\gammaγ):用于度量未来奖励的重要性,范围在 [0, 1] 之间。通常用于处理长期决策问题。
马尔科夫决策过程的目标:
在MDP中,智能体的目标是找到一个策略(Policy),该策略可以最大化累积奖励。策略 π\piπ 定义了在每个状态 下采取行动
的规则,可以是确定性的,也可以是随机的。
累积奖励通常表示为回报(Return)
智能体的目标是最大化从初始状态开始的期望回报:
价值函数和最优策略:
为了找到最优策略,我们引入状态价值函数(State Value Function,)和行动价值函数(Action Value Function):
- 状态价值函数 :表示在状态 s下,按照策略 行动所能获得的期望累积回报。
- 行动价值函数 :表示在状态 s下采取行动 a后,按照策略行动所能获得的期望累积回报。
找到最优策略的过程通常涉及贝尔曼方程(Bellman Equation),这是一个递归关系,定义了价值函数的更新方式。通过迭代方法(如值迭代或策略迭代),我们可以求解最优价值函数,从而推导出最优策略。
3. 实例分析
实例1:棋盘游戏(如棋类游戏)
在棋盘游戏中,如国际象棋或围棋,状态空间包括棋盘上的所有可能配置,行动空间是当前状态下所有合法的棋步。每一步的状态转移是由玩家的动作决定的,奖励通常在游戏结束时根据胜负来给予。通过MDP框架,智能体可以学习最优策略,从而提高游戏水平。
实例2:机器人路径规划
在机器人路径规划中,状态空间是机器人的当前位置,行动空间是机器人可以移动的方向。奖励函数可以设定为到达目标位置时获得正奖励,撞墙或超出边界时获得负奖励。通过MDP,机器人可以学会在复杂环境中找到最优路径。
结论
马尔科夫链和马尔科夫决策过程为强化学习提供了理论基础,使得我们能够有效地建模和解决智能体在动态环境中的决策问题。通过理解这些基本概念,我们可以更好地设计和分析强化学习算法,为各种应用场景中的智能决策提供支持。
PS:小总结
马尔科夫性是对强化学习问题的一种简化的假设。前边讲到,我们假设t+1时刻的状态是由
在执行动作
时候得到的,这表示了一种状态转移关系,然而实际上,t+1时刻的状态不应该仅仅只由t时刻的信息来决定,还应该与更长的历史信息有关。
由此,引出一个问题,更长的历史信息到底是多长?多长才是合理的?针对不同的问题有不同的答案
同时,如何保证在更长的历史信息的情况下保持更高效的计算.?
虽然历史信息很重要,但是毫无疑问,当前时间不多状态信息更重要,起到了决定性的作用,所以在一般的强化学习问题中,我们可以近似地认为,当前时间步的状态和动作已经包含了历史中的关键信息,我们称此为“马尔科夫性”
强化学习有一个的单独分支研究“部分可观测性”,部分可观测性假设当前状态仅包含少量的有价值的信息,在此专栏中,我们不关注部分可观测性,我们假设所有的模型都满足马尔可夫性。