强化学习
hnshahao
这个作者很懒,什么都没留下…
展开
-
强化学习知识汇总(3) - Policy Gradient
主要包括以下内容(1) Policy gradient 的推导, 公式直观解释(2) A3C, PPO, TRPO....原创 2018-07-06 10:42:16 · 368 阅读 · 0 评论 -
强化学习知识汇总(2) - DQN
(1) DQN(2) Double DQN(3)原创 2018-07-06 10:37:38 · 349 阅读 · 0 评论 -
强化学习知识汇总(1) - 基础知识
(1) MDP(2) TD 算法(3) Q Learning(4) Sarsa(5) MC原创 2018-07-06 10:36:44 · 178 阅读 · 0 评论 -
TRPO 算法解析
这篇主要讲TRPO的思想,和思路原创 2018-10-11 09:55:35 · 3163 阅读 · 3 评论 -
Policy Gradient 和 Value based 方法的区别
[Value Based 方法](1) Value based的方法的背景知识对于MDP, S,A,P,R,r来说,首先是定义了value function, V(s)和Q(s,a),在有了value function的定义以后,就可以得到Optimal valueOptimal policy然后又引出了Bellman Equation,Bellman Equa...原创 2018-10-08 16:14:41 · 7793 阅读 · 0 评论