强化学习概览

|更新:2020.12.03 | fjy2035@foxmail.com
转载:https://www.cnblogs.com/pinard/p/10384424.html
Github:https://github.com/ljpzzz/machinelearning


强化学习(一)模型基础:
https://www.cnblogs.com/pinard/p/9385570.html
强化学习(二)马尔科夫决策过程(MDP)
https://www.cnblogs.com/pinard/p/9426283.html
强化学习(三)用动态规划(DP)求解
https://www.cnblogs.com/pinard/p/9463815.html
强化学习(四)用蒙特卡罗法(MC)求解
https://www.cnblogs.com/pinard/p/9492980.html
强化学习(五)用时序差分法(TD)求解
https://www.cnblogs.com/pinard/p/9529828.html
强化学习(六)时序差分在线控制算法SARSA
https://www.cnblogs.com/pinard/p/9614290.html
强化学习(七)时序差分离线控制算法Q-Learning
https://www.cnblogs.com/pinard/p/9669263.html
强化学习(八)价值函数的近似表示与Deep Q-Learning
https://www.cnblogs.com/pinard/p/9714655.html
强化学习(九)Deep Q-Learning进阶之Nature DQN
https://www.cnblogs.com/pinard/p/9756075.html
强化学习(十)Double DQN (DDQN)
https://www.cnblogs.com/pinard/p/9778063.html
强化学习(十一) Prioritized Replay DQN
https://www.cnblogs.com/pinard/p/9797695.html
强化学习(十二) Dueling DQN
https://www.cnblogs.com/pinard/p/9923859.html
强化学习(十三) 策略梯度(Policy Gradient)
https://www.cnblogs.com/pinard/p/10137696.html
强化学习(十四) Actor-Critic
https://www.cnblogs.com/pinard/p/10272023.html
强化学习(十五) A3C
https://www.cnblogs.com/pinard/p/10334127.html
强化学习(十六) 深度确定性策略梯度(DDPG)
https://www.cnblogs.com/pinard/p/10345762.html
强化学习(十七) 基于模型的强化学习与Dyna算法框架
https://www.cnblogs.com/pinard/p/10384424.html
强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)
https://www.cnblogs.com/pinard/p/10470571.html
强化学习(十九) AlphaGo Zero强化学习原理
https://www.cnblogs.com/pinard/p/10609228.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值