DatawhaleJoyRL学习笔记 01-CSDN博客

本文链接：https://blog.csdn.net/byzhou14/article/details/134427515

1 绪论

强化学习（Reinforcement Learning, RL）是机器学习的一个重要分支，它主要涉及智能体（agent）在环境（environment）中学习如何做出决策的过程。在强化学习中，智能体通过尝试各种行动并观察结果来学习最佳策略，以此来最大化某种累积奖励。

强化学习的基本概念

马尔可夫决策过程（Markov Decision Process，MDP）是强化学习中的核心概念，用于描述和解决序列决策问题。在本文中，我们将深入探讨MDP的基本组成、原理及其在强化学习中的应用。

马尔可夫决策过程是一个数学框架，用于描述在不确定环境中的决策制定。在MDP中，智能体（agent）通过与环境（environment）的交互学习如何达成目标。智能体在每个时刻基于当前环境状态做出动作，这些动作会影响环境的下一状态，并带来相应的奖励。

MDP的一个关键前提是马尔可夫性质。该性质指出，未来状态的概率分布仅依赖于当前状态，与过去状态无关。形式上，它可以表示为

$P(S_{t+1}|S_t) = P(S_{t+1}|S_1, S_2, ..., S_t)$
这意味着，只有当前状态对于预测未来是必要的，历史状态则无关紧要

一个马尔可夫决策过程由以下五个主要部分组成：

在MDP中，智能体的目标是最大化累积奖励，称为回报（Return）。回报可以表述为
$G_t = R_{t+1} + γR_{t+2} + γ^2R_{t+3} + ...$
其中， $R_t$ 表示在时刻 $t$ 接收到的奖励， $γ$ 是折扣因子，用于权衡即时奖励与未来奖励的重要性。

状态转移矩阵是MDP的关键组成部分，它定义了在给定当前状态和动作的情况下，转移到不同状态的概率。矩阵中的每个元素 $P_{s s'}$ 代表从状态 $s$ 通过某个动作转移到状态 $s^{'}$ 的概率。

马尔可夫链是MDP的一种特殊形式，其中不涉及动作和奖励。它简单地描述了状态之间的转移概率，可以视为MDP的简化版。在某些情况下，对MDP的分析可以从研究其对应的马尔可夫链开始。