- 博客(1)
- 收藏
- 关注
原创 GAE 算法
点我到原文查看最新更新准备众所周知, 策略梯度有多种写法, 总的来说, 在保持策略梯度不变的情况下, 策略梯度可以写作g=E[∑t=0∞Ψt∇θlogπ0(at∣st)](1)g=\mathbb{E}\left[\sum_{t=0}^{\infty}\Psi_t\nabla_\theta \log\pi_0(a_t\mid s_t)\right]\tag{1}g=E[t=0∑∞Ψt∇θlogπ0(at∣st)](1)其中 Ψ\PsiΨ 可以是1. ∑t=0∞rt轨迹的总回报2.
2020-08-06 19:13:50 1763 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人