具身智能对于机器人的控制可以分为端到端模型和非端到端模型:
- 端到端模型:具身模型(如 ACT 和 DP)将视觉感知(Vision)与动作生成(Action)整合为单一神经网络,直接实现从多模态输入到连续动作的端到端映射。采用 CLIP 或 ViT 处理 RGB/Depth 图像,提取场景的语义特征,然后基于扩散策略模型(Diffusion Policy)或 Transformer 解码器生成末端空间位置信息
- 非端到端模型:具身分层模型(如 OpenVLA)以VLM为认知核心,将任务分解为感知、规划、控制三层架构,通过显式中间表示(如场景图、任务树)连接各模块。VLM(如GPT-4V、PaLI-X)解析视觉输入,生成场景描述(如"桌上有杯子,左侧有书本");符号推理引擎(如 PDDL 规划器)将语言指令转化为动作序列(如"移动→抓取→放置");传统控制器(如MPC、阻抗控制)执行底层运动
端到端模型又可拆分为预训练模型和非预训练模型,预训练模型(如 RDT)采用强化学习和 sim2real 的方式生成大量数据并进行迁移,具体可以参考这些文章;非预训练模型(如 DP)通过设计快速采集设备(如 UMI 和 Dexcap)通过模仿学习的方式采集海量真机数据具体可以参考这些文章
作为自己的核心研发方向,主要针对端到端模型进行研究
端到端模型底层核心采用了深度生成模型,如 ACT 基于 VAE,扩散策略基于扩散模型
因此先梳理一下生成式模型
目录
1 判别式模型与生成式模型
人工智能(AI)模型可以大致分为两大类:判别式模型和生成式模型
1.1 判别式模型
判别式模型主要用于预测和分类任务。它们直接对输入数据进行建模,学习输入与目标标签之间的映射关系。典型的应用场景包括图像分类、语音识别以及自然语言处理中的文本分类。数学上,判别式模型通常直接估计后验概率 P(y|x):
其中,x 为输入数据,y 为类别或标签。常见的判别式模型有逻辑回归、支持向量机(SVM)、决策树以及深度神经网络中的卷积神经网络(CNN)和循环神经网络(RNN)
1.2 生成式模型
与判别式模型不同,生成式模型旨在根据用户需求自动生成内容,例如生成图片、语音、视频等,并支持调整输入参数以实现内容定制化。生成式模型不仅关注数据的条件关系,还要捕捉数据的整体分布,从而生成符合实际分布的新样本,支持多模态数据。数学上,生成式模型通常建立在对数据分布 P(x) 或条件分布 P(x|y) 的建模上。当前主流的深度生成模型可分为两大类:
- 基于似然的模型(如自回归模型和GPT)通过明确的似然函数进行优化,使得模型具有可追踪性
- 基于能量的模型(如GAN和扩散模型)则依赖于能量函数构建概率分布,虽然训练上具有一定难度,但在生成高质量样本方面展现出强大能力
2 基于似然的生成模型
基于似然的模型通过显式地计算数据的似然值,从而使得模型训练具有明确的目标函数。这类模型在理论上具有可追踪的似然性,在优化模型参数时可以直接使用数据的对数似然估计
2.1 自回归模型
自回归模型是一类典型的基于似然的生成模型,其核心思想是将联合分布分解为一系列条件分布。例如,对于序列数据 x=(x1,x2,…,xn),可以将其联合概率表示为:
这种模型在文本生成中得到了广泛应用,GPT(Generative Pre-trained Transformer)便是典型的自回归生成模型,其训练目标就是最大化训练数据的对数似然:
2.2 变分自编码器(VAE)
变分自编码器(VAE)通过引入隐变量 z 来捕捉数据的潜在结构,并利用变分推断方法来近似计算数据的似然。其目标是最大化变分下界(Evidence Lower Bound, ELBO),公式为:
其中,q(z∣x) 为近似后验分布,p(z) 为先验分布, 为 Kullback-Leibler 散度,用于衡量两个分布之间的差异
VAE 的优势在于其生成过程的连续性和模型训练时的稳定性,但往往在生成样本的清晰度上略逊于自回归模型
3 基于能量的生成模型
基于能量的生成模型侧重于定义一个能量函数 E(x) 来衡量样本的“能量”或“不合理性”,从而构造概率分布。生成样本时,通过降低能量来获得高概率的样本,其概率分布可以表示为:
其中 Z 为归一化因子(又称分区函数),定义为:
3.1 生成对抗网络(GAN)
生成对抗网络(GAN)虽然在参数化上具有较大的灵活性,但实际上也可以看作是一种基于能量思想的模型。GAN 由生成器 G 和判别器 D 组成,其目标是通过博弈论的方式达到如下目标:
- 生成器:生成尽可能逼真的样本,使得判别器无法区分生成样本与真实样本
- 判别器:区分真实样本和生成样本
其训练过程通常采用交替优化的方式,损失函数形式为:
3.2 扩散模型与稳定扩散模型
扩散模型是的核心思想是先将数据逐步添加噪声直至完全随机化,然后通过学习反向扩散过程逐步还原数据。该过程可以描述为一系列马尔科夫链的逆过程。扩散模型中通常采用的策略是最小化数据与重构数据之间的距离,常见的损失函数为均方误差(MSE):
其中 x^ 为通过逆扩散过程还原的样本。稳定扩散模型(Stable Diffusion)作为扩散模型的典型应用,凭借其较高的生成质量和多样性在图像生成领域取得了显著的成果
虽然基于能量的模型在参数化和生成多样性方面具有优势,但由于涉及归一化因子的计算以及复杂的逆过程,其训练过程通常比基于似然的模型更为困难,需要精细的设计和大量计算资源
4 对比总结
- 判别式模型主要用于预测和分类,直接学习输入到标签之间的映射
- 生成式模型则致力于从数据分布中生成符合实际样本的新数据,支持多模态数据(图像、语音、视频等)的生成
- 基于似然的生成模型(如自回归模型和变分自编码器)通过明确的似然函数进行优化,使得模型具有可追踪性
- 基于能量的生成模型(如GAN和扩散模型)则依赖于能量函数构建概率分布,虽然训练上具有一定难度,但在生成高质量样本方面展现出强大能力
这些模型各自有不同的应用场景和发展方向