强化学习论文笔记
文章平均质量分 90
记录强化学习过程中的论文
最適当承诺
这个作者很懒,什么都没留下…
展开
-
文献阅读 - [model-based RL] (4) - [Master Game of Go without Human Knowledge]
Nature 2017 AlhphaGo Zero原创 2022-08-18 19:45:12 · 120 阅读 · 0 评论 -
[文献阅读] - HRL -[HRL with Universal Policies for Multi-Step Robotic Manipulation]
HRL: UOF原创 2022-07-24 14:45:30 · 399 阅读 · 0 评论 -
[文献阅读] - [Review-model-based RL] (3) - [Model-based RL: a Survey]
MBRL: survey 2020原创 2022-07-04 20:51:08 · 212 阅读 · 0 评论 -
Model Predictive Control
模型预测控制(model predictive contol, MPC)是在有环境模型的情况下为了找到能够实现最小成本(最大价值)的轨迹而进行的控制优化问题。 模型描述 我们已经知道了环境的模型: st+1=f(st,at)s_{t+1}=f(s_t,a_t)st+1=f(st,at), 我们已知初始状态s0s_0s0 我们知道不同状态与动作下的奖励 r(st,at,st+1)r(s_t,a_t,s_{t+1})r(st,at,st+1) goal : 想要求得能够到达目标状态sfs_fsf原创 2022-03-28 21:52:12 · 561 阅读 · 0 评论