强化学习概览

最新推荐文章于 2021-07-21 17:27:17 发布

fjy2035

最新推荐文章于 2021-07-21 17:27:17 发布

阅读量205

点赞数

分类专栏：强化学习文章标签：强化学习

原文链接：https://www.cnblogs.com/pinard/p/9385570.html

版权

强化学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

|更新：2020.12.03 | fjy2035@foxmail.com
转载：https://www.cnblogs.com/pinard/p/10384424.html
Github：https://github.com/ljpzzz/machinelearning

强化学习（一）模型基础：
https://www.cnblogs.com/pinard/p/9385570.html
强化学习（二）马尔科夫决策过程(MDP)
https://www.cnblogs.com/pinard/p/9426283.html
强化学习（三）用动态规划（DP）求解
https://www.cnblogs.com/pinard/p/9463815.html
强化学习（四）用蒙特卡罗法（MC）求解
https://www.cnblogs.com/pinard/p/9492980.html
强化学习（五）用时序差分法（TD）求解
https://www.cnblogs.com/pinard/p/9529828.html
强化学习（六）时序差分在线控制算法SARSA
https://www.cnblogs.com/pinard/p/9614290.html
强化学习（七）时序差分离线控制算法Q-Learning
https://www.cnblogs.com/pinard/p/9669263.html
强化学习（八）价值函数的近似表示与Deep Q-Learning
https://www.cnblogs.com/pinard/p/9714655.html
强化学习（九）Deep Q-Learning进阶之Nature DQN
https://www.cnblogs.com/pinard/p/9756075.html
强化学习（十）Double DQN (DDQN)
https://www.cnblogs.com/pinard/p/9778063.html
强化学习(十一) Prioritized Replay DQN
https://www.cnblogs.com/pinard/p/9797695.html
强化学习(十二) Dueling DQN
https://www.cnblogs.com/pinard/p/9923859.html
强化学习(十三) 策略梯度(Policy Gradient)
https://www.cnblogs.com/pinard/p/10137696.html
强化学习(十四) Actor-Critic
https://www.cnblogs.com/pinard/p/10272023.html
强化学习(十五) A3C
https://www.cnblogs.com/pinard/p/10334127.html
强化学习(十六) 深度确定性策略梯度(DDPG)
https://www.cnblogs.com/pinard/p/10345762.html
强化学习(十七) 基于模型的强化学习与Dyna算法框架
https://www.cnblogs.com/pinard/p/10384424.html
强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)
https://www.cnblogs.com/pinard/p/10470571.html
强化学习(十九) AlphaGo Zero强化学习原理
https://www.cnblogs.com/pinard/p/10609228.html

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习概览

|更新：2020.12.03 | fjy2035@foxmail.com从今天开始整理强化学习领域的知识，主要参考的资料是Sutton的强化学习书和UCL强化学习的课程。这个系列大概准备写10到20篇，希望写完后自己的强化学习碎片化知识可以得到融会贯通，也希望可以帮到更多的人，毕竟目前系统的讲解强化学习的中文资料不太多。第一篇会从强化学习的基本概念讲起，对应Sutton书的第一章和UCL课程的第一讲。强化学习在机器学习中的位置　　　　强化学习的学习思路和人比较类似，是在实践中学习，比如学习走路
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。