强化学习笔记 - 00 - 术语和数学符号

最新推荐文章于 2024-03-06 02:25:04 发布

xl.zhang

最新推荐文章于 2024-03-06 02:25:04 发布

阅读量4.1k

点赞数 1

分类专栏：【强化学习】【强化学习小白之路】文章标签：强化学习机器学习术语

本文链接：https://blog.csdn.net/u011254180/article/details/84031546

版权

本文详细介绍了强化学习的基本概念，包括Agent、Environment、策略、近似计算等核心要素，阐述了状态、行动、奖赏、策略、价值函数等关键概念，并探讨了强化学习的目标与近似算法。此外，还讲解了通用的数学符号和相关术语，如episodic tasks、continuing tasks等。

摘要由CSDN通过智能技术生成

基本概念

Agent - 本体。学习者、决策者。
Environment - 环境。本体外部的一切。
- 状态(state)。一个表示环境的数据。
S,S - 所有状态集合。环境中所有的可能状态。
- 行动(action)。本体可以做的动作。
A,A - 所有行动集合。本体可以做的所有动作。
A(s),A(s) - 状态的行动集合。本体在状态下，可以做的所有动作。
- 奖赏(reward)。本体在一个行动后，获得的奖赏。
- 所有奖赏集合。本体可以获得的所有奖赏。

$S_{t}$ - 第t步的状态(state)。 from 0
$A_{t}$ - 第t步的行动(select action)。 from 0
$R_{t}$ - 第t步的奖赏(reward)。 from 1
$G_{t}$ - 第t步的长期回报(return)。 from 0。 强化学习的目标1：追求最大回报