【经验分享】DQN入门篇—利用DQN解决MountainCar
【经验分享】DQN入门篇—利用DQN解决MountainCar 近日,学习了百度飞桨深度学习学院推出的强化学习课程,通过课程学习并结合网上一些知识,对DQN知识做了一个总结笔记。本篇文章内容涉及DQN算法介绍以及利用DQN解决MountainCar。强化学习强化学习的目标是学习到策略,使得累计回报的期望值最大,即: 为了便于求解最优策略,引入值函数和动作状态值函数来评价某个状态和动作的优劣。值函数的定义如下:动作状态值函数定义为: 求解值函数和动作状态值
原创
2020-06-26 20:40:55 ·
3541 阅读 ·
0 评论