强化学习词汇详解-CSDN博客

本文链接：https://blog.csdn.net/u010705932/article/details/125229271

这篇博客是一个强化学习领域的术语词典，作者旨在帮助初学者理解这个领域的新术语。博客介绍了Action-Value Function、Actions、Actor-Critic等核心概念，并提供了相关的学习资源。作者还计划不断更新词典内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

每当我开始学习一个对我来说是新的学科时，我发现最难应付的是它的新术语。每个领域都有很多术语和定义，对于外人来说完全是晦涩难懂的，并且会使新手的第一步变得相当困难。

当我踏入这个世界或强化学习的第一步时，我被每隔一行出现的新术语所震撼，并且总是让我感到惊讶的是，这些复杂的单词背后是多么简单而合乎逻辑的想法。因此，我决定用我自己的话把它们都写下来，这样我就可以随时查找它们，以防我忘记了。这本词典就是这样诞生的。

这不是强化学习的介绍文章，而是在学习时提供帮助的补充工具。如果你也想在这个领域开始你的道路，我可以推荐以下内容：

如果您正在寻找包含代码示例的 10 分钟 RL 速成课程，请查看我的 Qrash 课程系列：RL 和 Q-Learning 简介以及 Policy Gradients 和 Actor-Critics。
如果您有更深入的了解，并且想学习和编写几种不同的 RL 算法并获得更多直觉，我可以推荐 Thomas Simonini 的这个系列和 Arthur Juliani 的这个系列。
如果您准备好掌握 RL，我将指导您阅读强化学习的“圣经”——Richard Sutton 和 Andrew Barto 的“Reinforcement Learning, an introduction”。第二版（从 2018 年开始）以 PDF 文件的形式免费（合法）提供。

我会尽我所能，不断更新这本词典。如果我错过了任何重要的事情或做错了什么，请随时告诉我。

词典

Action-Value Function: 见 Q-Value。

Actions: 动作(actions)是agent的方法，它允许它交互和改变它的环境(environment)，从而在状态(states)之间转移。 agent执行的每个动作都会从环境中产生奖励(reward)。选择哪个动作由策略(policy)决定。

Actor-Critic: 在尝试解决强化学习问题时，可以选择两种主要方法：计算每个状态的值函数或 $Q$ 值并根据它们选择动作，或者直接计算定义每个动作根据当前状态应该采取的概率的策略，并按其行事。 Actor-Critic 算法将这两种方法结合起来，以创建更稳健的方法。可以在这里找到一个很棒的插图漫画解释。

Advantage Function: 通常表示为 $A (s, a)$ ，优势函数是衡量在给定状态下某个动作的好坏决定的量度——或者更简单地说，从某个状态中选择某个动作的优势是什么。它在数学上定义为：
$A(s,a)=\mathbb{E}\left[ r(s,a)-r(s) \right]$
其中 $r (s, a)$ 是来自状态 $s$ 的动作 $a$ 的预期奖励，而 $r (s)$ 是在选择动作之前整个状态 $s$ 的预期奖励。也可以看成：
$A (s, a) = Q (s, a) - V (s)$
其中 $Q (s, a)$ 是 $Q$ 值， $V (s)$ 是值函数。

Agent: 强化学习问题的学习和行动部分，它试图最大化环境给予的奖励。简单地说，Agent 就是你尝试设计的模型。

Bandits: 在老虎机(slot-machines)的昵称“one-armed bandit”之后正式命名为“k-Armed Bandits”，这些被认为是最简单的强化学习任务类型。 Bandits没有不同的状态，只有一个——考虑的奖励只是立即的。因此，Bandits可以被认为是具有单一状态的回合(Episodes)。每个 k 臂都被认为是一个动作，目标是学习在每个动作（或手臂拉动）后最大化预期奖励的策略。Contextual Bandits是一项稍微复杂的任务，其中每个状态可能不同并影响动作的结果——因此每次context都是不同的。尽管如此，该任务仍然是一个单一状态的回合任务，一个context不能影响其他上下文。

Bellman Equation: 形式上，贝尔曼方程定义了给定状态（或状态-动作对）与其后继状态之间的关系。虽然存在多种形式，但强化学习任务中最常见的一种是最优 Q 值的贝尔曼方程，由下式给出：
$Q^*(s,a)=\sum_{s',s}p(s',r|s,a)\left[ r+\gamma\max_{a'}Q^*(s',a') \right]$

完整的强化学习词典

词典