强化学习原理(刘建平)-目录

最新推荐文章于 2021-12-20 21:35:51 发布

Hiking_Yu

最新推荐文章于 2021-12-20 21:35:51 发布

阅读量829

点赞数

分类专栏：强化学习 python

本文链接：https://blog.csdn.net/Hiking_Yu/article/details/104304529

版权

29 篇文章 2 订阅

订阅专栏

8 篇文章 2 订阅

订阅专栏

文章	代码
强化学习（一）模型基础	代码
强化学习（二）马尔科夫决策过程(MDP)	无
强化学习（三）用动态规划（DP）求解	无
强化学习（四）用蒙特卡罗法（MC）求解	无
强化学习（五）用时序差分法（TD）求解	无
强化学习（六）时序差分在线控制算法SARSA	代码
强化学习（七）时序差分离线控制算法Q-Learning	代码
强化学习（八）价值函数的近似表示与Deep Q-Learning	代码
强化学习（九）Deep Q-Learning进阶之Nature DQN	代码
强化学习（十）Double DQN (DDQN)	代码
强化学习(十一) Prioritized Replay DQN	代码
强化学习(十二) Dueling DQN	代码
强化学习(十三) 策略梯度(Policy Gradient)	代码
强化学习(十四) Actor-Critic	代码
强化学习(十五) A3C	代码
强化学习(十六) 深度确定性策略梯度(DDPG)	代码
强化学习(十七) 基于模型的强化学习与Dyna算法框架	无
强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)	无
强化学习(十九) AlphaGo Zero强化学习原理	无