![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
理论知识
笔记和知识整理
qqqeeevvv
研一学生
展开
-
【李宏毅深度强化学习笔记】8、Imitation Learning
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (N...原创 2020-01-30 18:18:16 · 4727 阅读 · 5 评论 -
【李宏毅深度强化学习笔记】7、Sparse Reward
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (N...原创 2020-01-29 14:25:31 · 3117 阅读 · 1 评论 -
【李宏毅深度强化学习笔记】6、Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (N...原创 2020-01-28 16:43:36 · 7714 阅读 · 3 评论 -
【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF算法)
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (N...原创 2020-01-26 00:53:56 · 5460 阅读 · 10 评论 -
【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法(本文)【李宏毅深度强化学习笔记】5、Q-learning用于连续动...原创 2020-01-21 01:08:46 · 5890 阅读 · 1 评论 -
【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)(本文)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动...原创 2020-01-20 01:41:37 · 10137 阅读 · 5 评论 -
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)(本文)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于...原创 2020-01-17 17:55:57 · 19983 阅读 · 29 评论 -
【李宏毅深度强化学习笔记】2、Proximal Policy Optimization算法(PPO)
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法(本文)【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动...原创 2020-01-15 15:00:01 · 13375 阅读 · 19 评论