参考文献: P. Kapoor, A. Balakrishnan, and J. V. Deshmukh, “Model-based Reinforcement Learning from Signal Temporal Logic Specifications.” arXiv, Nov. 10, 2020. doi: 10.48550/arXiv.2011.04950.
Outline
-
用DNN来学习系统动态,用于MPC的轨迹生成
-
优化目标为STL的量化语义
-
结合MBRL和MPC得到优化轨迹
Remarks
-
推荐程度:1
-
和篇文章和强化学习没有半毛钱关系,查了一下果不其然被挂了
Problem Formulation
Model-based RL分两个部分,学模型和学策略
(Kapoor et al., 2020, p. 2)
Details
学模型
-
随机采样获取轨迹,将 ( s t , a t , s t + 1 ) (s_t,a_t,s_{t+1}) (st,at,st+1)作为训练数据
-
优化目标:平方误差和
-
优化算法:stochastic gradient descent
学策略
基于上面学出来的模型进行MPC?
(Kapoor et al., 2020, p. 3)
-
系统动态作为约束
-
鲁棒度为目标函数
-
用CMA-ES求解(一种进化算法)