强化学习
文章平均质量分 94
强化学习笔记
一辄
清华ai硕在读【关注具身智能、人形机器人】
展开
-
强化学习 | Mirror Learning
看了论文Mirror Learning: A Unifying Framework of Policy Optimisation.这篇blog对该论文的核心内容进行整理,限于时间未整理细节推导部分原创 2022-03-24 17:27:49 · 2319 阅读 · 19 评论 -
强化学习 | Multi Agents | Trust Region | HATRPO | HAPPO
ICLR2022多智能体论文,将trust region推广到MA上,保证单调递增。学习博客,共7k字,纯手敲。含大量手写笔记。原创 2022-03-22 20:02:10 · 13408 阅读 · 21 评论 -
强化学习 | 策略梯度 | Natural PG | TRPO | PPO
递进学习策略梯度:从 Gradient、Policy Gradient (REINFORCE、Q Actor-Critic、Advantage Actor-Critic ) 至 Natural Policy Gradient、TRPO、PPO 。逻辑清晰,含大量手写笔记,注释了黎曼流形、Hessian矩阵等30余个数学概念原创 2022-03-11 11:59:02 · 10223 阅读 · 16 评论 -
强化学习入门笔记 | UCL silver RL | UC Berkely cs285 DRL
先后听了两门课程,分别是David Silver的RL和Sergey Levin的DRL。各耗时一周左右,后者更难一些。原创 2022-03-01 23:54:37 · 3607 阅读 · 2 评论