强化学习
理论和实践
qqqeeevvv
研一学生
展开
-
【李宏毅深度强化学习笔记】8、Imitation Learning
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (N...原创 2020-01-30 18:18:16 · 4738 阅读 · 5 评论 -
【李宏毅深度强化学习笔记】7、Sparse Reward
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (N...原创 2020-01-29 14:25:31 · 3129 阅读 · 1 评论 -
【李宏毅深度强化学习笔记】6、Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (N...原创 2020-01-28 16:43:36 · 7733 阅读 · 3 评论 -
【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF算法)
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (N...原创 2020-01-26 00:53:56 · 5477 阅读 · 10 评论 -
【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法(本文)【李宏毅深度强化学习笔记】5、Q-learning用于连续动...原创 2020-01-21 01:08:46 · 5901 阅读 · 1 评论 -
【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)(本文)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动...原创 2020-01-20 01:41:37 · 10153 阅读 · 5 评论 -
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)(本文)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于...原创 2020-01-17 17:55:57 · 20092 阅读 · 29 评论 -
【李宏毅深度强化学习笔记】2、Proximal Policy Optimization算法(PPO)
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法(本文)【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动...原创 2020-01-15 15:00:01 · 13408 阅读 · 19 评论