2019年04月_JustJokerX

04月

翻译 DQN

DQN 算法分析：我们的环境是确定性的，所以为了简单起见，这里给出的所有方程也是确定性地制定的。在强化学习文献中，他们也将对环境随机转换产生预估。我们的目标是训练一个策略来最大化回报Rt0=∑∞t=t0γt−t0rtR_{t_0} = \sum_{t=t_0}^{\infty} \gamma^{t - t_0} r_t, γ\gamma是折扣，是00到11之间的一个常数，用来保证和是收敛的。它

2019-04-14 23:05:47 6009

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人