一 累积回报
智能体的目标是最大化长期受到的累积回报(cumulative reward)。如何定义累计回报呢?如果在时间t时刻之后,智能体接受到的回报序列表示成
. 那么,我们寻求的是最大化期望回报(expected return),这里用Gt表示特定的回报序列函数。回报的表示方法之一是将回报累加,即:
考虑到实际场景,在计算累积回报时都会引入一个折扣因子(用γ表示)。智能体尝试选择一个动作使得未来的折扣回报累积最大化。特别的,智能体会在时刻t选择动作At能最大化期望折扣回报(expected discounted return)。即:
二 值函数
- 状态值函数
里用π表示策略,即状态到动作的映射。用π(a|s)表示当状态为s时,采取动作a的概率(条件概率分布)。在策略π下状态s的值函数(状态值函数)用
表示
- 状态动作值函数
在策略π下,状态为s时动作a对应值函数 我们称之为状态动作值函数(action-value function),用表示
三 最优策略
- 贝尔曼方程
如果策略π是最优的,当且仅当对于任意的状态s, 均存在策略π对应的值函数大于等于其它策略的值函数。
用公式表示为:
最优策略可以通过最大化动作状态值函数贝尔曼最优方程来求解。即:
四 RL过程
强化学习是解决交互过程中、以整体收益最大化(最大化累积回报)为导向的序列学习问题。 这里的目标即为最大化累积回报,而累积回报受过程中的策略π影响,策略π是随机变量,所以累积回报也是一个随机变量。
强化学习希望通过一个确定的函数能描述最大化的累积回报。
因此就用了累积回报的期望来描述价值函数。
根据策略最优定理:价值函数最优所对应的策略即为最优策略,即最优策略的选择可以根据价值函数的最大值来确定。
那么,强化学习求解问题最后就转化为如果获得最优的价值函数(状态值函数or状态动作值函数).