DatawhaleJoyRL学习笔记 01

1 绪论

1.1 什么是强化学习

强化学习(Reinforcement Learning, RL)是机器学习的一个重要分支,它主要涉及智能体(agent)在环境(environment)中学习如何做出决策的过程。在强化学习中,智能体通过尝试各种行动并观察结果来学习最佳策略,以此来最大化某种累积奖励。

强化学习的基本概念

  1. 智能体(Agent): 智能体是强化学习框架中做决策的实体。它可以是一个软件程序,如游戏中的角色,或者是一个机器人。
  2. 环境(Environment): 环境是智能体所处的世界或上下文,智能体在其中进行操作。
  3. 状态(State): 状态是对环境在某一时刻的描述。智能体的每个决策都会从一个状态转移到另一个状态。
  4. 行动(Action): 行动是智能体可以执行的操作。智能体的目标是通过执行行动来改变状态。
  5. 奖励(Reward): 智能体在达到特定状态时所获得的即时回报。强化学习的目标是最大化累积奖励。
  6. 策略(Policy): 策略是智能体用来决定在给定状态下应采取哪个行动的规则。
  7. 价值函数(Value Function): 价值函数用来估计在某个状态下,遵循特定策略可能获得的累积奖励的期望值。
  8. 模型(Model): 在某些类型的强化学习中,模型用于模拟环境的行为,预测环境对智能体行动的反应

1.2 为什么学强化学习

  • 强化学习能解决复杂的序列决策问题。
  • 它在日常生活中和多个学科领域有广泛应用,如游戏、机器人、金融等。
  • 试错学习(一种强化学习的形式)与行为心理学紧密相关,涉及尝试、错误、结果和学习的过程。
  • 强化学习帮助智能体通过决策实现目标,最大化累积奖励。

1.3 强化学习方向概述

  • 多智能体强化学习:涉及多个智能体在环境中的交互。
  • 从数据中学习:包括模仿学习、逆强化学习、从人类反馈中学习等。
  • 探索策略:如何在探索未知和利用已知之间做出平衡。
  • 实时环境:解决智能体在实时环境中的决策问题,如自动驾驶、机器人等。
  • 多任务强化学习:智能体需要同时解决多个任务。

2 马尔可夫决策过程

马尔可夫决策过程(Markov Decision Process,MDP)是强化学习中的核心概念,用于描述和解决序列决策问题。在本文中,我们将深入探讨MDP的基本组成、原理及其在强化学习中的应用。

2.1 马尔可夫过程概述

马尔可夫决策过程是一个数学框架,用于描述在不确定环境中的决策制定。在MDP中,智能体(agent)通过与环境(environment)的交互学习如何达成目标。智能体在每个时刻基于当前环境状态做出动作,这些动作会影响环境的下一状态,并带来相应的奖励。

2.2 马尔可夫性质

MDP的一个关键前提是马尔可夫性质。该性质指出,未来状态的概率分布仅依赖于当前状态,与过去状态无关。形式上,它可以表示为

P ( S t + 1 ∣ S t ) = P ( S t + 1 ∣ S 1 , S 2 , . . . , S t ) P(S_{t+1}|S_t) = P(S_{t+1}|S_1, S_2, ..., S_t) P(St+1St)=P(St+1S1,S2,...,St)
这意味着,只有当前状态对于预测未来是必要的,历史状态则无关紧要

2.2.1 MDP的组成要素

一个马尔可夫决策过程由以下五个主要部分组成:

  1. 状态空间(S):所有可能状态的集合。
  2. 动作空间(A):智能体可执行的所有动作集合。
  3. 奖励函数(R):描述执行动作后获得的即时奖励。
  4. 状态转移矩阵(P):描述从一个状态转移到另一个状态的概率。
  5. 折扣因子(γ):未来奖励的当前价值减少量。

2.2.2 回报与奖励

在MDP中,智能体的目标是最大化累积奖励,称为回报(Return)。回报可以表述为
G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . G_t = R_{t+1} + γR_{t+2} + γ^2R_{t+3} + ... Gt=Rt+1+γRt+2+γ2Rt+3+...
其中, R t R_t Rt表示在时刻 t t t接收到的奖励, γ γ γ是折扣因子,用于权衡即时奖励与未来奖励的重要性。

2.2.3 状态转移矩阵

状态转移矩阵是MDP的关键组成部分,它定义了在给定当前状态和动作的情况下,转移到不同状态的概率。矩阵中的每个元素 P s s ′ P_{s s'} Pss代表从状态 s s s通过某个动作转移到状态 s ′ s' s的概率。

2.3. 马尔可夫链与MDP

马尔可夫链是MDP的一种特殊形式,其中不涉及动作和奖励。它简单地描述了状态之间的转移概率,可以视为MDP的简化版。在某些情况下,对MDP的分析可以从研究其对应的马尔可夫链开始。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值