策略梯度公式如下:
策略梯度公式的计算过程:
优化目标为最大化 函数,即通过调整
,使得期望回报最大,公式表示如下:
表示一个
内由
和
组成的完整序列。我们通常采用梯度上升
算法来求解最大值问题,即:
计算策略梯度即计算回报函数 关于
的梯度,计算方法如下:
其中,
取对数,
继续求导,
代入可得,
策略梯度公式如下:
策略梯度公式的计算过程:
优化目标为最大化 函数,即通过调整
,使得期望回报最大,公式表示如下:
表示一个
内由
和
组成的完整序列。我们通常采用梯度上升
算法来求解最大值问题,即:
计算策略梯度即计算回报函数 关于
的梯度,计算方法如下:
其中,
取对数,
继续求导,
代入可得,