[ICML2017]Averaged-DQN: Variance Reduction and Stabilization for Deep Reinforcement Learning 论文笔记

前言

DRL train起来是困难的,因为存在instability和variability,这也会影响其表现。寻找合适的方式让训练变得平稳是比较关键的。以往的算法通常是在线性函数逼近的情况下分析的,其在温和的假设下保证收敛。但现实生活的问题通常包含高维输入,使得线性函数逼近方法依赖手工工程特征来表示特定问题的状态,这就降低了agent的灵活性。因此需要有表达力和灵活性的非线性函数估计,除了一小部分成功的尝试,总的来看这种结合被认为不稳定,并且即使在简单场景也显示出了发散(diverge)。DQN是第一个将非线性函数近似——DNN——成功与Q learning结合的方法,其通过将

©️2020 CSDN 皮肤主题: 像素格子 设计师:CSDN官方博客 返回首页