深度生成模型(一)——具身智能综述与算法分类简介

具身智能对于机器人的控制可以分为端到端模型和非端到端模型:

  1. 端到端模型:具身模型(如 ACT 和 DP)将视觉感知(Vision)与动作生成(Action)整合为单一神经网络,直接实现从多模态输入到连续动作的端到端映射。采用 CLIP 或 ViT 处理 RGB/Depth 图像,提取场景的语义特征,然后基于扩散策略模型(Diffusion Policy)或 Transformer 解码器生成末端空间位置信息
  2. 非端到端模型:具身分层模型(如 OpenVLA)以VLM为认知核心,将任务分解为感知、规划、控制三层架构,通过显式中间表示(如场景图、任务树)连接各模块。VLM(如GPT-4V、PaLI-X)解析视觉输入,生成场景描述(如"桌上有杯子,左侧有书本");符号推理引擎(如 PDDL 规划器)将语言指令转化为动作序列(如"移动→抓取→放置");传统控制器(如MPC、阻抗控制)执行底层运动

端到端模型又可拆分为预训练模型和非预训练模型,预训练模型(如 RDT)采用强化学习和 sim2real 的方式生成大量数据并进行迁移,具体可以参考这些文章;非预训练模型(如 DP)通过设计快速采集设备(如 UMI 和 Dexcap)通过模仿学习的方式采集海量真机数据具体可以参考这些文章

作为自己的核心研发方向,主要针对端到端模型进行研究

端到端模型底层核心采用了深度生成模型,如 ACT 基于 VAE,扩散策略基于扩散模型

因此先梳理一下生成式模型

目录

1 判别式模型与生成式模型

1.1 判别式模型

1.2 生成式模型

2 基于似然的生成模型

2.1 自回归模型

2.2 变分自编码器(VAE)

3 基于能量的生成模型

3.1 生成对抗网络(GAN)

3.2 扩散模型与稳定扩散模型

4 对比总结


1 判别式模型与生成式模型

人工智能(AI)模型可以大致分为两大类:判别式模型生成式模型

1.1 判别式模型

判别式模型主要用于预测分类任务。它们直接对输入数据进行建模,学习输入与目标标签之间的映射关系。典型的应用场景包括图像分类、语音识别以及自然语言处理中的文本分类。数学上,判别式模型通常直接估计后验概率 P(y|x)

P(y|x) = \frac{P(x, y)}{P(x)}

其中,x 为输入数据,y 为类别或标签。常见的判别式模型有逻辑回归、支持向量机(SVM)、决策树以及深度神经网络中的卷积神经网络(CNN)和循环神经网络(RNN)

1.2 生成式模型

与判别式模型不同,生成式模型旨在根据用户需求自动生成内容,例如生成图片、语音、视频等,并支持调整输入参数以实现内容定制化。生成式模型不仅关注数据的条件关系,还要捕捉数据的整体分布,从而生成符合实际分布的新样本,支持多模态数据。数学上,生成式模型通常建立在对数据分布 P(x) 或条件分布 P(x|y) 的建模上。当前主流的深度生成模型可分为两大类:

  1. 基于似然的模型(如自回归模型和GPT)通过明确的似然函数进行优化,使得模型具有可追踪性
  2. 基于能量的模型(如GAN和扩散模型)则依赖于能量函数构建概率分布,虽然训练上具有一定难度,但在生成高质量样本方面展现出强大能力

2 基于似然的生成模型

基于似然的模型通过显式地计算数据的似然值,从而使得模型训练具有明确的目标函数。这类模型在理论上具有可追踪的似然性,在优化模型参数时可以直接使用数据的对数似然估计

2.1 自回归模型

自回归模型是一类典型的基于似然的生成模型,其核心思想是将联合分布分解为一系列条件分布。例如,对于序列数据 x=(x1,x2,…,xn),可以将其联合概率表示为:

p(x) = \prod_{i=1}^{n} p(x_i \mid x_1, x_2, \dots, x_{i-1})

这种模型在文本生成中得到了广泛应用,GPT(Generative Pre-trained Transformer)便是典型的自回归生成模型,其训练目标就是最大化训练数据的对数似然:

\mathcal{L} = \sum_{i=1}^{n} \log p(x_i \mid x_1, \dots, x_{i-1})

2.2 变分自编码器(VAE)

变分自编码器(VAE)通过引入隐变量 z 来捕捉数据的潜在结构,并利用变分推断方法来近似计算数据的似然。其目标是最大化变分下界(Evidence Lower Bound, ELBO),公式为:

\mathcal{L} = \mathbb{E}_{q(z \mid x)}\left[\log p(x \mid z)\right] - \text{KL}\left(q(z \mid x) \parallel p(z)\right)

其中,q(z∣x) 为近似后验分布,p(z) 为先验分布,\text{KL}(\cdot\parallel\cdot) 为 Kullback-Leibler 散度,用于衡量两个分布之间的差异

VAE 的优势在于其生成过程的连续性和模型训练时的稳定性,但往往在生成样本的清晰度上略逊于自回归模型

3 基于能量的生成模型

基于能量的生成模型侧重于定义一个能量函数 E(x) 来衡量样本的“能量”或“不合理性”,从而构造概率分布。生成样本时,通过降低能量来获得高概率的样本,其概率分布可以表示为:

p(x) = \frac{\exp(-E(x))}{Z}

其中 Z 为归一化因子(又称分区函数),定义为:

Z = \int \exp(-E(x)) \, dx

3.1 生成对抗网络(GAN)

生成对抗网络(GAN)虽然在参数化上具有较大的灵活性,但实际上也可以看作是一种基于能量思想的模型。GAN 由生成器 G 和判别器 D 组成,其目标是通过博弈论的方式达到如下目标:

  • 生成器:生成尽可能逼真的样本,使得判别器无法区分生成样本与真实样本
  • 判别器:区分真实样本和生成样本

其训练过程通常采用交替优化的方式,损失函数形式为:

\min_G \max_D \; \mathbb{E}_{x\sim p_{data}(x)}[\log D(x)] + \mathbb{E}_{z\sim p(z)}[\log(1-D(G(z)))]

3.2 扩散模型与稳定扩散模型

扩散模型是的核心思想是先将数据逐步添加噪声直至完全随机化,然后通过学习反向扩散过程逐步还原数据。该过程可以描述为一系列马尔科夫链的逆过程。扩散模型中通常采用的策略是最小化数据与重构数据之间的距离,常见的损失函数为均方误差(MSE):

\mathcal{L}_{\text{diff}} = \mathbb{E}\left[\|x - \hat{x}\|^2\right]

其中 x^ 为通过逆扩散过程还原的样本。稳定扩散模型(Stable Diffusion)作为扩散模型的典型应用,凭借其较高的生成质量和多样性在图像生成领域取得了显著的成果

虽然基于能量的模型在参数化和生成多样性方面具有优势,但由于涉及归一化因子的计算以及复杂的逆过程,其训练过程通常比基于似然的模型更为困难,需要精细的设计和大量计算资源

4 对比总结

  • 判别式模型主要用于预测和分类,直接学习输入到标签之间的映射
  • 生成式模型则致力于从数据分布中生成符合实际样本的新数据,支持多模态数据(图像、语音、视频等)的生成
  • 基于似然的生成模型(如自回归模型和变分自编码器)通过明确的似然函数进行优化,使得模型具有可追踪性
  • 基于能量的生成模型(如GAN和扩散模型)则依赖于能量函数构建概率分布,虽然训练上具有一定难度,但在生成高质量样本方面展现出强大能力

这些模型各自有不同的应用场景和发展方向

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值