DQN paper 总结

最新推荐文章于 2024-06-03 01:02:46 发布

cuixuange

最新推荐文章于 2024-06-03 01:02:46 发布

阅读量657

点赞数

分类专栏： machine-learning 强化学习基础文章标签： DQN

本文链接：https://blog.csdn.net/u014297722/article/details/82926670

版权

本文总结了两篇关于DQN的重要论文——'Playing Atari with Deep Reinforcement Learning'和'Human-level control through deep reinforcement learning'。DQN通过深度Q网络解决非线性逼近action-value函数的不稳定性问题，采用experience replay和目标网络来稳定训练过程。关键点包括价值函数的使用、算法伪代码、策略区分以及经验回放缓冲区和目标网络的作用。

摘要由CSDN通过智能技术生成

已读paper

Playing Atari with Deep Reinforcement Learning

Human-level control through deep reinforcement learning

deep-Q-NetWork

思考
1.value-function是如何使用的
2.算法伪代码
3.异策略行动策略(产生新样本数据的策略,例如e-greedy) 和评估策略 (Q(s,a)值函数的更新,e.g.选择当前和将来max rewrd的Q(s,a)更新方式)

trick
DQN解决的问题: 非线性逼近action-value常常出现不稳定不收敛的情况
1.experience replay
memory存储previous N个状态集合,形式要求: <s1,a1,r2,s2>,<s2,a2,r3,s3>…
2.单独处理时间差分算法中的TD偏差
target action-value function: r + γMaxQ(s’,a’;θ) 以及需要更新的Q(s,a;θ)
Nerual Net random初始化θ
存在问题: target 以及学习函数使用相同参数使得训练不稳定方差大
解决方案:
target value-function隔一段固定步数再更新(θ^ = θ) 而Q(s,a;θ)通过SGD不断更新