在强化学习中,特别是在值迭代、策略迭代和策略搜索的上下文中,和
,以及
和
是用来区分最优策略的参数和给定策略(可能不是最优的)的参数,以及相应的状态价值函数。
和
:
就是能使期望回报最大化的参数值。即,。
:表示某个特定策略的参数。这个策略 可以是任何策略,不一定是最优的。
和:
:这是状态
s
下的最优价值函数,也称为最优状态价值。它表示从状态s
开始,智能体遵循最优策略时所能获得的期望回报。数学上,它定义为 ,其中 )是折扣因子, 是在时刻 获得的奖励。- :表示在状态
s
下遵循特定策略时的价值函数。即如果智能体从状态s
开始并遵循策略 ,那么 就是它所能获得的期望回报。这通常写作以强调它依赖于策略 。
通常,强化学习的目标是找到最优策略,它对应于参数 和状态价值函数 。在实际应用中,我们可能会使用各种算法来逼近这些最优值,因为我们往往无法直接计算出最优策略或其对应的价值函数。