![](https://img-blog.csdnimg.cn/direct/f140c1e1723645fcbbdd4e3252f1d10f.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Reinforcement Learning
文章平均质量分 91
强化学习
阿正的梦工坊
岁月不饶人,我亦未曾饶过岁月
展开
-
深度强化学习(王树森)笔记01
强化学习的基本概念:state, action, policy, reward, return, value functions等原创 2024-01-26 15:53:57 · 1343 阅读 · 0 评论 -
深度强化学习(王树森)笔记02
介绍价值学习,深度Q网络(DQN)和时间差分(TD)算法原创 2024-01-26 20:43:17 · 453 阅读 · 1 评论 -
深度强化学习(王树森)笔记03
策略学习:policy network, policy gradient,REINFORCE原创 2024-01-27 12:08:14 · 1483 阅读 · 0 评论 -
深度强化学习(王树森)笔记04
Actor-Critic算法原创 2024-01-27 17:37:38 · 1567 阅读 · 0 评论 -
深度强化学习(王树森)笔记05
AlphaGo和更强的AlphaGo Zero的原理,蒙特卡洛树搜索MCST原创 2024-01-28 17:28:50 · 1238 阅读 · 2 评论 -
深度强化学习(王树森)笔记06
用蒙特卡洛方法求随机梯度原创 2024-01-28 18:45:30 · 1200 阅读 · 0 评论 -
深度强化学习(王树森)笔记07
TD learning:Q learning和SARSA算法以及随机排列,On-policy与Off-policy原创 2024-01-28 21:08:33 · 478 阅读 · 0 评论 -
深度强化学习(王树森)笔记08
价值学习高级技巧:experience replay, target network, double DQN, dueling network, noisy net原创 2024-01-29 13:46:22 · 877 阅读 · 0 评论 -
深度强化学习(王树森)笔记09
带baseline的策略梯度方法:REINFORCE with baseline和advantage actor-critic (A2C)原创 2024-01-29 20:17:21 · 1262 阅读 · 0 评论 -
深度强化学习(王树森)笔记10
连续控制:确定策略网络DPG,TD3,随机高斯策略原创 2024-01-30 13:12:34 · 1081 阅读 · 0 评论 -
深度强化学习(王树森)笔记11
策略学习的高级技巧:置信域策略优化 (TRPO)原创 2024-01-30 17:08:01 · 964 阅读 · 0 评论