- 博客(1)
- 收藏
- 关注
翻译 DQN
DQN 算法分析: 我们的环境是确定性的,所以为了简单起见,这里给出的所有方程也是确定性地制定的。 在强化学习文献中,他们也将对环境随机转换产生预估。我们的目标是训练一个策略来最大化回报Rt0=∑∞t=t0γt−t0rtR_{t_0} = \sum_{t=t_0}^{\infty} \gamma^{t - t_0} r_t, γ\gamma是折扣,是00到11之间的一个常数,用来保证和是收敛的。它
2019-04-14 23:05:47 6009
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人