Paper-6 精读 Deep Visuomotor Policies (2016 JMLR)

最新推荐文章于 2025-06-23 16:25:38 发布

原创

最新推荐文章于 2025-06-23 16:25:38 发布 · 1.2k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#深度强化学习 #人工智能 #Visuomotor

本文探讨了一种端到端训练深度视觉运动策略的方法，适用于未知动力学环境下的视觉控制任务。通过Guided Policy Search框架，结合BADMM优化算法，实现从高维复杂观察到动作的直接映射。

End-to-End Training of Deep Visuomotor Policies

概述
一、逻辑梳理
二、Dive Into Details
三、总结

概述

这篇是2016年Journal of Machine Learning Research的期刊Paper：End-to-End Training of Deep Visuomotor Policies。非常完整，特别适合对GPS、Trajectory Optimization、Guided Cost Learning进行整理，形成一个框架。

总的来说，传统方法处理的输入是raw state，这篇期刊的输入是image即observation，处理的是一个POMDP的问题。

一般需要将observation通过state estimation或者perception变成state，然后再用state进行control。End-to-End的意思就是把Perception与Control一起训练了。

文章公式细节有点冗长，看到一半捋不顺，可以直接跳到总结。

标记符号的意义，其中 $l(x_t,u_t)$ 还是改成用cost function的形式即 $c(x_t,u_t)$

一、逻辑梳理

1.1 目标

目标是学习一个Visuomotor Policies即 $\pi(u_t|o_t)$ 。就是给定一个Image observation，应该做什么动作。

因此现在参数化的对象是 $\pi_\theta(u_t|o_t)$ :

$\pi_\theta(u_t|x_t)=\int \pi_\theta(u_t|o_t)p(o_t|x_t)do_t$

但轨迹分布仍然是定义在state上的:

$\pi_\theta(\tau)=p(x_1)\prod_{t=1}^T\pi_\theta(u_t|x_t)p(x_{t+1}|x_t,u_t)$

因此目标为寻找一个参数 $\theta$ 使损失最小：

$E_{\pi_\theta(\tau)}[\sum_{t=1}^Tc(x_t,u_t)]$

未知的对象有两个，一个是Dynamics即 $p(x_{t+1}|x_t,u_t)$ ，一个是observation distribution即 $p(o_t|x_t)$ 。

参数化的对象只有一个： $\pi_\theta(u_t|o_t)$

因此用下面的网络架构建模 $\pi_\theta(u_t|o_t)$ ，并确定形式 $\pi_\theta(u_t|o_t)=N(\mu(o_t),\Sigma(o_t))$

1.2 监督信息

确定了目标 $\pi_\theta(u_t|o_t)$ ，现在要确定supervision从哪来？就是说给定 $o_t$ ，要做哪个动作 $u_t$ ？

Supervision来自RL目标解出来的动作即 $p_i(u_t|x_t)$ ，系统的状态 $x_t$ 是已知的。（同一时刻，记录 $x_t,o_t)$ ，然后RL训练出一个 $p_i(u_t|x_t)$ 给 $o_t$ 提供supervision）

因此最主要的问题变为：

怎么训练一个linear-Gaussian controllers $p_i(u_t|x_t)$ ，目标是什么？
训练 $\pi(u_t|o_t)$ 的目标是什么？
整体训练过程是怎样的？

1.3 训练框架

Unknown Dynamics： $p(x_{t+1}|x_t,u_t)$
Linear-Gaussian Controllers ： $p_i(u_t|x_t)$
$p_i(u_t|x_t)$ 中的 $i$ 是指从不同initial states开始的Policy
Trajectory distribution：
$p_i(\tau)=p_i(x_1)\prod_{t=1}^Tp_i(u_t|x_t)p(x_{t+1}|x_t,u_t)$

因此从Outer Loop最左侧的循环是用传统方法根据目标 $L_p$ 将Controllers训练好的，而Inner Loop则是从Controllers那得到Guided Samples根据目标 $L_\theta$ 训练好，得到 $\pi_\theta(u_t|o_t)$ .

Policy Distribution:
$\pi_\theta(\tau)=p(x_1)\prod_{t=1}^T\pi_\theta(u_t|x_t)p(x_{t+1}|x_t,u_t)$

因此Trajectory Distribution与Policy Distribution的初始状态是不一样的，要想Policy最后学到初始状态的泛化性，就得迭代Policy，使其与Trajectory distribution的state distribution相同，就有了Inner Loop中 $L_p$ 与 $L_\theta$ 交互优化的那一部分了。

流程清楚了，下面请留意两个未知对象的处理：
一个是Dynamics即 $p(x_{t+1}|x_t,u_t)$ ，一个是observation distribution即 $p(o_t|x_t)$

二、Dive Into Details

2.1 整体的目标推导

先看看要学习对象 $\pi_\theta(u_t|o_t)$ 的目标应该是什么？
$\pi_\theta(u_t|x_t)=\int \pi_\theta(u_t|o_t)p(o_t|x_t)do_t$

因此我们看看 $\pi_\theta(u_t|x_t)$ ：
$\pi_\theta(\tau)=p(x_1)\prod_{t=1}^T\pi_\theta(u_t|x_t)p(x_{t+1}|x_t,u_t)$

因此优化这个目标就能学到 $\pi_\theta(u_t|x_t)$ ：
$E_{\pi_\theta(\tau)}[c(\tau)]$

这个经典的RL问题呀，当然可以采用VPG、TRPO、PPO一类的On-Policy算法，抑或是DDPG、TD3、SAC求解，但需要的Samples好像有点多，一般都是在虚拟环境上训练再在现实环境中transfer的，因此采用经典的GPS算法进行Guided，这个Guided的对象为 $p(u_t|x_t)$ 目标变为：
$\min_{p,\pi_\theta}E_{p(\tau)}[c(\tau)]\\ s.t\quad p(x_t)p(u_t|x_t)=p(x_t)\pi_\theta(u_t|x_t)$