强化学习-1 基础


1 强化学习发展历史

强化学习(Reinforcement Learning, RL)的发展历史悠久,可以追溯到上世纪中叶。它融合了多学科的研究成果,包括控制论、心理学、神经科学和计算机科学等。以下是强化学习发展的几个关键阶段:

1.1 早期基础(20世纪50-60年代)

  • 行为主义和试探学习理论:强化学习的早期理论基础来自于心理学中的行为主义,特别是B.F.斯金纳(B.F. Skinner)的操作性条件反射理论和Edward Thorndike的试错学习理论。
  • 控制论:控制论家Norbert Wiener在1948年提出的《控制论》一书中,描述了通过反馈控制系统来优化行为的概念,这为后来的强化学习奠定了基础。
  • Bellman方程:Richard Bellman在1957年提出的动态规划和Bellman方程,为后来的强化学习算法提供了理论支持。

1.2 强化学习的初步发展(20世纪70-80年代)

  • 马尔可夫决策过程(MDP):在20世纪60年代,Ronald A. Howard提出了马尔可夫决策过程(MDP),为强化学习提供了一个数学框架。
  • TD算法:在1980年,Arthur Samuel开发了自学习的跳棋程序,展示了TD(Temporal Difference,时序差分)学习的应用。
  • Watkins的Q-learning:在1989年,Christopher Watkins提出了Q-learning算法,这是一种基于值函数的无模型强化学习方法,成为了强化学习研究的一个重要里程碑。

1.3 强化学习的兴起(20世纪90年代)

  • 书籍《Reinforcement Learning: An Introduction》:Richard S. Sutton和Andrew G. Barto在1998年出版了《强化学习:一个介绍》,系统化地介绍了强化学习的基本原理和方法,成为该领域的经典教材。
  • 应用于游戏和控制:在1992年,Gerald Tesauro开发了TD-Gammon,一个用于学习和玩双陆棋的强化学习程序,取得了显著成功,展示了强化学习在复杂任务中的潜力。

1.4 深度学习与强化学习的结合(21世纪初至今)

  • 深度Q网络(DQN):2013年,DeepMind的研究团队将深度学习和强化学习结合,提出了深度Q网络(DQN)算法,成功在多个雅达利游戏上超越人类表现。这标志着深度强化学习(Deep Reinforcement Learning)的兴起。
  • AlphaGo:2016年,DeepMind开发的AlphaGo程序使用深度强化学习和蒙特卡罗树搜索(MCTS)击败了围棋世界冠军李世石,展示了强化学习在复杂战略游戏中的潜力。
  • 策略梯度方法:Policy Gradient Methods,包括REINFORCE,Proximal Policy Optimization (PPO)Trust Region Policy Optimization (TRPO):这些政策优化方法被提出,用于提高强化学习算法的稳定性和效率。
  • AlphaZero:在2017年,DeepMind进一步开发了AlphaZero,通过自我对弈的方式学习,成功掌握了围棋、国际象棋和将棋等多个游戏,展示了通用强化学习算法的强大能力。

1.5 近年来的进展

  • 多智能体强化学习:随着研究的深入,多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)成为一个重要的研究方向,探索多个智能体在共享环境中的协作和竞争。
  • 元强化学习:研究者们开始探索元强化学习(Meta-Reinforcement Learning),旨在开发能够快速适应新任务的通用智能体。
  • 应用领域拓展:强化学习的应用领域不断扩展,包括机器人控制、自动驾驶、金融交易、智能制造和医疗健康等。

1.6 当前研究热点

  • 高效探索和利用:如何在未知环境中高效探索并利用已有知识仍是强化学习的核心问题。如探究算法(Exploration Algorithms)。
  • 长期依赖和信用分配:研究如何处理长期依赖问题和有效分配奖励以改进学习策略。如分层强化学习(Hierarchical Reinforcement Learning)。
  • 安全性和鲁棒性:确保强化学习算法在实际应用中能够安全、可靠地运行。安全强化学习(Safe Reinforcement Learning)。
  • 可解释性和透明性:提高强化学习模型的可解释性,使其决策过程更加透明。可解释强化学习(Interpretable Reinforcement Learning)。

强化学习的发展历史展示了其从理论基础到实际应用的逐步演进,以及随着深度学习技术的进步而带来的重大突破和广泛应用。

2 强化学习基础

2.1 强化学习概述

2.2 序列决策

2.2.1 智能体与环境

序列决策(sequential decision making)

  1. 智能体输出动作给环境。
  2. 环境取得动作,进行下一步,并且把下一步的观测和动作带来的奖励返还给智能体。
  3. 智能体和环境不断进行交互,目标是获得最大化奖励策略。

2.2.2 奖励

奖励是由环境给的一种标量的反馈信号(scalar feedback signal),这种信号可显示智能体在某一步采 取某个策略的表现如何。

2.2.3 序列决策

强化学习里面一个重要的课题就是近期奖励和远期奖励的权衡 (trade-off),研究怎么让智能体取得更多的远期奖励。
历史是观测o、动作a、奖励r的序列:
H t = o 1 , a 1 , r 1 , … , o t , a t , r t H_{t}=o_{1}, a_{1}, r_{1}, \ldots, o_{t}, a_{t}, r_{t} Ht=o1,a1,r1,,ot,at,rt
把状态看成关于这个历史的函数:
S t = f ( H t ) S_{t}=f\left(H_{t}\right) St=f(Ht)
状态是对世界的完整描述,不会隐藏世界的信息。
观测是对状态的部分描述,可能会遗漏一些信息。
在深度强化学习中,我们几乎总是用实值的向量、矩阵或者更高阶的张量来表示状态和观测。
环境有自己的函数 s t e = f e ( H t ) s_{t}^{e}=f^{e}\left(H_{t}\right) ste=fe(Ht) 来更新状态。
智能体的内部也有一个函数 s t a = f a ( H t ) s_{t}^{a}=f^{a}\left(H_{t}\right) sta=fa(Ht)来更新状 态。
完全可观测: 当智能体的状态与环境的状态等价的时候,即当智能体能够观察到环境的所有状态时,我们称这个环 境是完全可观测的(fully observed)。
马尔可夫决策过程中, o t = s t e = s t a o_{t}=s_{t}^{e}=s_{t}^{a} ot=ste=sta
部分可观测: 智能体得到的观测并不能包含环境运作的所有状态,也就是当智能体只能看到部分的观测,我们就称这个环境是部分可观测的(partially observed)。
部分可观测马尔可夫决策过程(partially observable Markov decision process, POMDP)。部分可观测马尔可夫决策过程可以用一个七元组描述: ( S , A , T , R , Ω , O , γ ) (S,A,T,R,\Omega,O,\gamma) (S,A,T,R,Ω,O,γ)。其中 S S S 表示状态空间,为隐变量, A A A 为动作空间, T ( s ′ ∣ s , a ) T(s'|s,a) T(ss,a) 为状态转移概率, R R R 为奖励函数, Ω ( o ∣ s , a ) \Omega(o|s,a) Ω(os,a) 为观测概率, O O O 为观测空间, γ \gamma γ 为折扣系数。

2.2.4 动作空间 A A A

在给定的环境中,有效动作的集合经常被称为动作空间(action space)
离散动作空间(discrete action space)。在这个动作 空间里,智能体的动作数量是有限的。
连续动作空间(continuous action space)。在连续动作空间中,动作是实值的向量。

2.3 智能体

强化学习的智能体组成:
策略(policy)
价值函数(value function)
模型(model)

2.3.1 策略

策略是智能体的动作模型,它决定了智能体的动作。它其实是一个函数,用于把输入的状态变成动作。
随机性策略(stochastic policy): π {\pi} π 函数
确定性策略(deterministic policy)

2.3.2 价值函数

价值函数的值是对未来奖励的预测,我们用它来评估状态的好坏。
折扣因子(discount factor)
价值函数的定义为:

V π ( s ) ≐ E π [ G t ∣ s t = s ] = E π [ ∑ k = 0 ∞ γ k r t + k + 1 ∣ s t = s ] , 对于所有的 s ∈ S V_{\pi}(s) \doteq \mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s\right]=\mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} r_{t+k+1} \mid s_{t}=s\right], \text{对于所有的} s \in S Vπ(s)Eπ[Gtst=s]=Eπ[k=0γkrt+k+1st=s],对于所有的sS

期望 E π \mathbb{E}_{\pi} Eπ的下标是 π {\pi} π 函数, π \pi π 函数的值可反映在我们使用策略 π {\pi} π 的时候,到底可以得到多少奖励。

另一种价值函数:Q 函数。Q 函数里面包含两个变量:状态和动作。其定义为 Q π ( s , a ) ≐ E π [ G t ∣ s t = s , a t = a ] = E π [ ∑ k = 0 ∞ γ k r t + k + 1 ∣ s t = s , a t = a ] Q_{\pi}(s, a) \doteq \mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s, a_{t}=a\right]=\mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} r_{t+k+1} \mid s_{t}=s, a_{t}=a\right] Qπ(s,a)Eπ[Gtst=s,at=a]=Eπ[k=0γkrt+k+1st=s,at=a] 所以我们未来可以获得奖励的期望取决于当前的状态和当前的动作
当我们得到 Q 函数后,进入某个状态要采取的最优动作可以通过 Q 函数得到。

2.3.3 模型

模型决定了下一步的状态。下一步的状态取决于当前的状态以及当前采取的动作。它由状态转移概率和奖励函数两个部分组成。状态转移概率即 p s s ′ a = p ( s t + 1 = s ′ ∣ s t = s , a t = a ) p_{s s^{\prime}}^{a}=p\left(s_{t+1}=s^{\prime} \mid s_{t}=s, a_{t}=a\right) pssa=p(st+1=sst=s,at=a)
奖励函数是指我们在当前状态采取了某个动作,可以得到多大的奖励,即
R ( s , a ) = E [ r t + 1 ∣ s t = s , a t = a ] R(s,a)=\mathbb{E}\left[r_{t+1} \mid s_{t}=s, a_{t}=a\right] R(s,a)=E[rt+1st=s,at=a]
当我们有了策略、价值函数和模型3个组成部分后,就形成了一个马尔可夫决策过程(Markov decision process)

2.3.4 智能体类型

1.基于价值的智能体和基于策略的智能体

基于价值基于策略
代表算法Q学习(Q-learning)、 Sarsa、演员-评论员算法策略梯度(Policy Gradient,PG)、演员-评论员算法
智能体不需要制定显式的策略,它维护一个价值表格或价值函数,并通过这个价值表格或价值函数来选取价值最大的动作。智能体会制定一套动作策略(确定在给定状态下需要采取何种动作),并根据这个策略进行操作。
强化学习算法直接对策略进行优化,使制定的策略能够获得最大的奖励。
范围不连续的、离散的环境下(如围棋或某些游戏领域)动作集合规模庞大、动作连续的场景(如机器人控制领域)

2.有模型强化学习智能体与免模型强化学习智能体

有模型(model-based)免模型(model-free)
通过学习状态的转移来采取动作通过学习价值函数和策略函数进行决策。没有去直接估计状态的转移。
需要对环境进行建模,同时在真实环境与虚拟环境中进行学习。不需要对环境进行建模,直接与真实环境进行交互即可。
如果建模的环境与真实环境的差异较大,那么会限制其泛化性能。通常需要较多的数据或者采样工作来优化策略,这也使其对于真实环境具有更好的泛化性能。

2.4 学习与规划

学习(learning)和规划(planning)是序列决策的两个基本问题。

2.5 探索和利用

探索即我们去探索环境,通过尝试不同的动作来得到最佳的策略(带来最大奖励的策略)。
利用即我们不去尝试新的动作,而是采取已知的可以带来很大奖励的动作。
这里就面临一个权衡问题,即怎么通过牺牲一些短期的奖励来理解动作,从而学习到更好的策略。

2.6 强化学习实验

observation、reward、done、info
observation 是状态信息,
reward 是奖励值,
done 表示游戏是否已经完成,
info 是一些比较原始的用于诊断和调试的信息。

3 参考文献

蘑菇书

4 附

4.1 早期理论

B.F. Skinner的操作性条件反射理论和Edward Thorndike的试错学习理论是行为主义心理学的两大重要理论,奠定了现代强化学习的基础。以下是这两种理论的详细介绍:

4.1.1 Edward Thorndike的试错学习理论

4.1.1.1 背景

Edward Thorndike(1874-1949)是美国著名的心理学家,被认为是行为主义的先驱之一。他最著名的贡献是通过实验研究动物学习行为,提出了试错学习理论(Trial-and-Error Learning)。

4.1.1.2 主要实验

Thorndike的著名实验是“迷箱实验”(Puzzle Box Experiment)。他将饿猫放入一个装有机关的迷箱中,猫必须操作特定的机制(如拉动杠杆)才能打开箱子获取食物。通过观察猫的行为,Thorndike记录了猫解决问题所需的时间和错误次数的变化。

4.1.1.3 理论内容
  1. 试错过程

    • 动物在解决问题的过程中会尝试不同的行为,逐步淘汰无效行为,保留有效行为。这种不断尝试和错误的过程称为试错学习。
  2. 效果律(Law of Effect)

    • Thorndike提出的效果律是试错学习理论的核心。它表明,当某一行为带来的结果是令人满意的时,该行为在相同情境下发生的概率会增加;反之,当行为带来的结果是不令人满意的时,该行为在相同情境下发生的概率会减少。
  3. 练习律(Law of Exercise)

    • 练习律表明,行为和结果之间的连接会随着重复的次数而增强。即,重复的练习有助于巩固行为模式。

4.1.2 B.F. Skinner的操作性条件反射理论

4.1.2.1 背景

B.F. Skinner(1904-1990)是美国著名的心理学家,被誉为“操作性条件反射之父”。他进一步发展了Thorndike的工作,提出了操作性条件反射理论(Operant Conditioning),并设计了许多实验和装置来验证这一理论。

4.1.2.2 主要实验

Skinner设计了“斯金纳箱”(Skinner Box),一种控制环境下的实验装置,用于研究动物(如老鼠和鸽子)的行为。箱子内通常有杠杆或按钮,动物操作这些装置后会获得食物奖励,或避免电击等惩罚。

4.1.2.3 理论内容
  1. 操作性行为(Operant Behavior)

    • Skinner区分了两种行为类型:应答行为(Respondent Behavior)和操作性行为。操作性行为是指动物或人类通过主动操作环境来获得某种结果的行为,而应答行为是对特定刺激的反射性反应。
  2. 强化(Reinforcement)

    • 正强化(Positive Reinforcement):通过给予奖励来增加某行为发生的概率。例如,老鼠按下杠杆后获得食物奖励。
    • 负强化(Negative Reinforcement):通过移除不愉快的刺激来增加某行为发生的概率。例如,老鼠按下杠杆后停止电击。
  3. 惩罚(Punishment)

    • 正惩罚(Positive Punishment):通过施加不愉快的刺激来减少某行为发生的概率。例如,老鼠按下杠杆后受到电击。
    • 负惩罚(Negative Punishment):通过移除奖励来减少某行为发生的概率。例如,老鼠按下杠杆后食物奖励被取消。
  4. 强化时间表(Schedules of Reinforcement)

    • Skinner还研究了不同的强化时间表对行为的影响,包括固定比例(Fixed Ratio)、可变比例(Variable Ratio)、固定间隔(Fixed Interval)和可变间隔(Variable Interval)等。
正向负向
强化得到奖励减少伤害
惩罚得到伤害减少奖励

4.1.3 对强化学习的影响

  • 试错学习理论

    • Thorndike的效果律为强化学习中的奖励机制提供了理论基础,强调了行为结果的重要性。
  • 操作性条件反射理论

    • Skinner的强化和惩罚概念直接影响了强化学习中的奖励信号设计,强化时间表则对应于强化学习中的策略评估和更新机制。

总结来说,Edward Thorndike和B.F. Skinner的理论为理解和设计强化学习算法提供了重要的理论支持。试错学习理论中的效果律和练习律、操作性条件反射理论中的强化和惩罚概念,都在现代强化学习中得到了广泛应用和进一步发展。

4.2 初步发展阶段

Ronald A. Howard 在20世纪60年代提出的马尔可夫决策过程(Markov Decision Process,MDP)是强化学习和动态规划中的一个重要概念,为理解和解决涉及决策和不确定性的问题提供了一个数学框架。以下是对MDP的详细介绍:

4.2.1 马尔可夫决策过程的定义

马尔可夫决策过程是一个包含如下五个元素的数学模型:

  1. 状态集合(States, S S S

    • S S S 是一个有限的或可数的状态集合,表示系统可能处于的所有不同状态。每个状态 ( s ∈ S ) (s \in S) (sS) 描述了系统在某一时刻的特定情况。
  2. 动作集合(Actions, A A A

    • A A A 是一个有限的或可数的动作集合,表示在每个状态下智能体可以采取的所有可能动作。动作集合可以依赖于状态,记为 A ( s ) A(s) A(s) 表示在状态 s s s 下可用的动作集合。
  3. 状态转移概率(State Transition Probability, P P P

    • P P P 是状态转移概率函数,表示在采取某一动作后系统从一个状态转移到另一个状态的概率。具体地, P ( s ′ ∣ s , a ) P(s'|s,a) P(ss,a) 表示在状态 s s s 下采取动作 a a a 后转移到状态 s ′ s' s 的概率。该过程具有马尔可夫性,即下一状态只取决于当前状态和当前动作,而与过去的状态和动作无关。
  4. 奖励函数(Reward Function, R R R

    • R R R 是奖励函数,表示在状态 s s s 下采取动作 a a a 后获得的即时奖励。可以记为 R ( s , a ) R(s,a) R(s,a) R ( s , a , s ′ ) R(s,a,s') R(s,a,s) 表示在状态 s s s 下采取动作 a a a 并转移到状态 s ′ s' s 所获得的奖励。
  5. 折扣因子(Discount Factor, γ \gamma γ

    • γ ∈ [ 0 , 1 ] \gamma \in [0,1] γ[0,1] 是一个折扣因子,用于表示未来奖励的现值权重。折扣因子越接近于1,表示未来奖励的重要性越高;当 γ = 0 \gamma=0 γ=0时,智能体只关注当前奖励。

4.2.2 马尔可夫决策过程的目标

MDP的目标是找到一个策略(Policy, π \pi π),该策略定义了在每个状态下智能体应该采取的动作,以最大化长期累计奖励。策略可以是确定性的或随机性的:

  • 确定性策略(Deterministic Policy):在每个状态下选择一个确定的动作,记为 π ( s ) = a \pi(s) = a π(s)=a
  • 随机策略(Stochastic Policy):在每个状态下选择一个动作的概率分布,记为 π ( a ∣ s ) \pi(a|s) π(as),表示在状态 s s s 下选择动作 a a a 的概率。

4.2.3 价值函数

在MDP中,价值函数用于评估某个状态或状态-动作对的长期奖励。主要包括以下两种价值函数:

  1. 状态值函数(State Value Function, V π ( s ) V^\pi(s) Vπ(s)

    • 表示在状态 s s s 下,按照策略 π \pi π 行动所能获得的预期累计奖励。数学定义为:
      V π ( s ) = E [ ∑ t = 0 ∞ γ t R ( s t , a t ) ∣ s 0 = s , a t ∼ π ] V^\pi(s) = \mathbb{E} \left[ \sum_{t=0}^\infty \gamma^t R(s_t, a_t) \mid s_0 = s, a_t \sim \pi \right] Vπ(s)=E[t=0γtR(st,at)s0=s,atπ]
    • 其中 E \mathbb{E} E 表示期望值, s t s_t st 是第 t t t 时刻的状态, a t a_t at 是第 t t t 时刻的动作。
  2. 动作值函数(Action Value Function, Q π ( s , a ) Q^\pi(s, a) Qπ(s,a)

    • 表示在状态 s s s 下采取动作 a a a,并随后按照策略 π \pi π 行动所能获得的预期累计奖励。数学定义为:
      Q π ( s , a ) = E [ ∑ t = 0 ∞ γ t R ( s t , a t ) ∣ s 0 = s , a 0 = a , a t ∼ π ] Q^\pi(s, a) = \mathbb{E} \left[ \sum_{t=0}^\infty \gamma^t R(s_t, a_t) \mid s_0 = s, a_0 = a, a_t \sim \pi \right] Qπ(s,a)=E[t=0γtR(st,at)s0=s,a0=a,atπ]

4.2.4 贝尔曼方程

价值函数满足贝尔曼方程,这是MDP中的一个核心方程:

  1. 状态值函数的贝尔曼方程
    V π ( s ) = ∑ a ∈ A π ( a ∣ s ) ∑ s ′ ∈ S P ( s ′ ∣ s , a ) [ R ( s , a , s ′ ) + γ V π ( s ′ ) ] V^\pi(s) = \sum_{a \in A} \pi(a|s) \sum_{s' \in S} P(s'|s,a) [R(s,a,s') + \gamma V^\pi(s')] Vπ(s)=aAπ(as)sSP(ss,a)[R(s,a,s)+γVπ(s)]

  2. 动作值函数的贝尔曼方程
    Q π ( s , a ) = ∑ s ′ ∈ S P ( s ′ ∣ s , a ) [ R ( s , a , s ′ ) + γ ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) ] Q^\pi(s, a) = \sum_{s' \in S} P(s'|s,a) [R(s,a,s') + \gamma \sum_{a' \in A} \pi(a'|s') Q^\pi(s', a')] Qπ(s,a)=sSP(ss,a)[R(s,a,s)+γaAπ(as)Qπ(s,a)]

4.2.5 最优策略和最优值函数

最优策略 π ∗ \pi^* π 是使得长期累计奖励最大的策略。对应的最优值函数满足如下贝尔曼最优方程:

  1. 最优状态值函数
    V ∗ ( s ) = max ⁡ π V π ( s ) V^*(s) = \max_{\pi} V^\pi(s) V(s)=πmaxVπ(s)
    最优状态值函数的贝尔曼方程为:
    V ∗ ( s ) = max ⁡ a ∈ A ∑ s ′ ∈ S P ( s ′ ∣ s , a ) [ R ( s , a , s ′ ) + γ V ∗ ( s ′ ) ] V^*(s) = \max_{a \in A} \sum_{s' \in S} P(s'|s,a) [R(s,a,s') + \gamma V^*(s')] V(s)=aAmaxsSP(ss,a)[R(s,a,s)+γV(s)]

  2. 最优动作值函数
    Q ∗ ( s , a ) = max ⁡ π Q π ( s , a ) Q^*(s, a) = \max_{\pi} Q^\pi(s, a) Q(s,a)=πmaxQπ(s,a)
    最优动作值函数的贝尔曼方程为:
    Q ∗ ( s , a ) = ∑ s ′ ∈ S P ( s ′ ∣ s , a ) [ R ( s , a , s ′ ) + γ max ⁡ a ′ ∈ A Q ∗ ( s ′ , a ′ ) ] Q^*(s, a) = \sum_{s' \in S} P(s'|s,a) [R(s,a,s') + \gamma \max_{a' \in A} Q^*(s', a')] Q(s,a)=sSP(ss,a)[R(s,a,s)+γaAmaxQ(s,a)]

4.2.6 求解MDP的算法

  1. 动态规划

    • 值迭代(Value Iteration):通过迭代更新值函数,直到收敛到最优值函数。
    • 策略评估(Policy Evaluation):迭代计算当前策略的值函数。
    • 策略改进(Policy Improvement):基于当前值函数改进策略
    • 策略迭代(Policy Iteration):通过交替执行策略评估和策略改进,直到策略收敛到最优策略。
  2. 蒙特卡罗方法(Monte Carlo Methods):基于随机样本估计值函数,适用于MDP模型未知的情况。

    • 通过对多次试验取样估计值函数,不依赖于环境模型。
    • 适用于需要完整回合(episode)结束后进行更新的情境。
    • 蒙特卡罗策略评估:通过样本平均估计状态值函数。
    • 蒙特卡罗策略改进:通过改进策略获得更高的预期回报
  3. 时序差分学习(Temporal Difference Learning):结合动态规划和蒙特卡罗方法的优点,在线更新值函数。典型算法包括SARSA和Q-learning。

  • TD(0):更新值函数基于当前状态和下一状态的差分。 V ( s t ) ← V ( s t ) + α [ R t + 1 + γ V ( s t + 1 ) − V ( s t ) ] V(s_t) \leftarrow V(s_t) + \alpha [R_{t+1} + \gamma V(s_{t+1}) - V(s_t)] V(st)V(st)+α[Rt+1+γV(st+1)V(st)]
  • SARSA:一种用于策略学习的时序差分方法,更新规则为: Q ( s t , a t ) ← Q ( s t , a t ) + α [ R t + 1 + γ Q ( s t + 1 , a t + 1 ) − Q ( s t , a t ) ] Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha [R_{t+1} + \gamma Q(s_{t+1}, a_{t+1}) - Q(s_t, a_t)] Q(st,at)Q(st,at)+α[Rt+1+γQ(st+1,at+1)Q(st,at)]
  • Q学习(Q-Learning):一种用于离线学习最优策略的时序差分方法,更新规则为: Q ( s t , a t ) ← Q ( s t , a t ) + α [ R t + 1 + γ max ⁡ a ′ Q ( s t + 1 , a ′ ) − Q ( s t , a t ) ] Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha [R_{t+1} + \gamma \max_{a'} Q(s_{t+1}, a') - Q(s_t, a_t)] Q(st,at)Q(st,at)+α[Rt+1+γamaxQ(st+1,a)Q(st,at)]

4.2.7 MDP的应用

MDP被广泛应用于各类决策和优化问题中,包括:

  • 机器人路径规划
  • 自动驾驶
  • 游戏AI
  • 资源分配
  • 金融投资
  • 医疗决策

通过Ronald A. Howard提出的MDP框架,我们可以系统地解决涉及不确定性和长期规划的复杂决策问题,并为现代强化学习算法的开发和应用提供了坚实的理论基础。

  • 27
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值