1.3 强化学习的核心——马尔科夫链和决策过程

在强化学习(Reinforcement Learning, RL)中,马尔科夫链(Markov Chain)和马尔科夫决策过程(Markov Decision Process, MDP)是理解智能体如何在环境中进行决策的基础理论。它们提供了描述环境和智能体交互的数学框架,使得我们能够系统地研究和设计强化学习算法。

1. 马尔科夫链(Markov Chain)

马尔科夫链是一个描述随机过程的数学模型,其中状态的转移只依赖于当前状态,而与过去的历史无关。这种“无记忆性”特性被称为马尔科夫性质。

马尔科夫链的基本要素:
  • 状态空间(State Space, S):所有可能状态的集合,表示系统可能处于的不同状态。

  • 状态转移概率(State Transition Probability, P):从一个状态转移到另一个状态的概率。设当前状态为s_t​,下一状态为s_{t+1} ​,那么状态转移概率表示为 P(s_{t+1}|s_t)

  • 初始状态分布(Initial State Distribution):系统在时间t=0 时刻处于某个状态的概率分布。

马尔科夫链的性质:

马尔科夫链的最重要性质是其无记忆性

这意味着在时间t+1的状态仅依赖于当前时间 t的状态,而与之前的状态无关。这一特性大大简化了对系统行为的分析和预测。

实例:随机游走

一个简单的马尔科夫链实例是随机游走(Random Walk)。假设一个人在一维数轴上随机移动,每一步向左或向右移动的概率相等(例如,0.5)。在这种情况下,当前状态的下一步只取决于当前所在位置,而不取决于之前的轨迹。

2. 马尔科夫决策过程(Markov Decision Process, MDP)

马尔科夫决策过程是马尔科夫链的扩展,它不仅考虑状态转移,还引入了智能体的决策过程,即在给定状态下选择不同的行动(Action),从而影响未来的状态转移。

MDP的基本要素:
  • 状态空间(State Space, S):系统可能的所有状态集合。

  • 行动空间(Action Space, A):智能体在每个状态下可以采取的行动集合。

  • 状态转移概率(State Transition Probability, P):在状态s_t采取行动 a_t 后,转移到下一状态s_{t+1}的概率。

  • 奖励函数(Reward Function, R):智能体在状态 s_t 采取行动 a_t后,获得的即时奖励 。

  • 折扣因子(Discount Factor, γ\gammaγ):用于度量未来奖励的重要性,范围在 [0, 1] 之间。通常用于处理长期决策问题。

马尔科夫决策过程的目标:

在MDP中,智能体的目标是找到一个策略(Policy),该策略可以最大化累积奖励。策略 π\piπ 定义了在每个状态 s_t 下采取行动a_t的规则,可以是确定性的,也可以是随机的。

累积奖励通常表示为回报(Return)

智能体的目标是最大化从初始状态开始的期望回报:

价值函数和最优策略:

为了找到最优策略,我们引入状态价值函数(State Value Function,)行动价值函数(Action Value Function)

  • 状态价值函数 :表示在状态 s下,按照策略 行动所能获得的期望累积回报。
  • 行动价值函数 :表示在状态 s下采取行动 a后,按照策略行动所能获得的期望累积回报。

找到最优策略的过程通常涉及贝尔曼方程(Bellman Equation),这是一个递归关系,定义了价值函数的更新方式。通过迭代方法(如值迭代或策略迭代),我们可以求解最优价值函数,从而推导出最优策略。

3. 实例分析

实例1:棋盘游戏(如棋类游戏)

在棋盘游戏中,如国际象棋或围棋,状态空间包括棋盘上的所有可能配置,行动空间是当前状态下所有合法的棋步。每一步的状态转移是由玩家的动作决定的,奖励通常在游戏结束时根据胜负来给予。通过MDP框架,智能体可以学习最优策略,从而提高游戏水平。

实例2:机器人路径规划

在机器人路径规划中,状态空间是机器人的当前位置,行动空间是机器人可以移动的方向。奖励函数可以设定为到达目标位置时获得正奖励,撞墙或超出边界时获得负奖励。通过MDP,机器人可以学会在复杂环境中找到最优路径。

结论

马尔科夫链和马尔科夫决策过程为强化学习提供了理论基础,使得我们能够有效地建模和解决智能体在动态环境中的决策问题。通过理解这些基本概念,我们可以更好地设计和分析强化学习算法,为各种应用场景中的智能决策提供支持。

PS:小总结

马尔科夫性是对强化学习问题的一种简化的假设。前边讲到,我们假设t+1时刻的状态s_{t+1}是由s_t在执行动作a_t时候得到的,这表示了一种状态转移关系,然而实际上,t+1时刻的状态不应该仅仅只由t时刻的信息来决定,还应该与更长的历史信息有关。

由此,引出一个问题,更长的历史信息到底是多长?多长才是合理的?针对不同的问题有不同的答案

同时,如何保证在更长的历史信息的情况下保持更高效的计算.?

虽然历史信息很重要,但是毫无疑问,当前时间不多状态信息更重要,起到了决定性的作用,所以在一般的强化学习问题中,我们可以近似地认为,当前时间步的状态和动作已经包含了历史中的关键信息,我们称此为“马尔科夫性”

强化学习有一个的单独分支研究“部分可观测性”,部分可观测性假设当前状态仅包含少量的有价值的信息,在此专栏中,我们不关注部分可观测性,我们假设所有的模型都满足马尔可夫性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

编程小星星

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值