Task01：强化学习基础_强化学习的satw-CSDN博客

本文链接：https://blog.csdn.net/Thoth_A/article/details/109190148

本文探讨了强化学习的基本概念，包括完全可观测环境、动作空间、基于价值函数与策略的智能体(agent)、Actor-Critic方法以及探索与利用(Exploration vs Exploitation)之间的权衡。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Reinforcement Learning一些概念

强化学习讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的环境(environment)里面去极大化它能获得的奖励。

当 agent 的状态跟环境的状态等价的时候，我们就说这个环境是 full observability，就是全部可以观测。换句话说，当 agent 能够观察到环境的所有状态时，我们称这个环境是完全可观测的(fully observed)。

在给定的环境中，有效动作的集合经常被称为动作空间(action space)。像 Atari 和 Go 这样的环境有离散动作空间(discrete action spaces)，在这个动作空间里，agent 的动作数量是有限的。在其他环境，比如在物理世界中控制一个 agent，在这个环境中就有连续动作空间(continuous action spaces) 。在连续空间中，动作是实值的向量。

基于价值函数的 agent。这一类 agent 显式地学习的是价值函数，隐式地学习了它的策略。因为这个策略是从我们学到的价值函数里面推算出来的。
基于策略的 agent，它直接去学习 policy，就是说你直接给它一个 state，它就会输出这个动作的概率。在这个 policy-based agent 里面并没有去学习它的价值函数。
把 value-based 和 policy-based 结合起来就有了 Actor-Critic agent。这一类 agent 就把它的策略函数和价值函数都学习了，然后通过两者的交互得到一个最佳的行为。

Exploration 是说我们怎么去探索这个环境，通过尝试不同的行为来得到一个最佳的策略，得到最大奖励的策略。

Exploitation 是说我们不去尝试新的东西，就采取已知的可以得到很大奖励的行为。