深度生成模型（一）——具身智能综述与算法分类简介

最新推荐文章于 2025-03-28 20:43:11 发布

夜幕龙

最新推荐文章于 2025-03-28 20:43:11 发布

阅读量884

点赞数 18

分类专栏：具身智能算法基础文章标签：算法 transformer 深度学习人工智能

本文链接：https://blog.csdn.net/qq_28912651/article/details/145846549

版权

具身智能算法基础专栏收录该内容

15 篇文章

订阅专栏

具身智能对于机器人的控制可以分为端到端模型和非端到端模型：

端到端模型：具身模型（如 ACT 和 DP）将视觉感知（Vision）与动作生成（Action）整合为单一神经网络，直接实现从多模态输入到连续动作的端到端映射。采用 CLIP 或 ViT 处理 RGB/Depth 图像，提取场景的语义特征，然后基于扩散策略模型（Diffusion Policy）或 Transformer 解码器生成末端空间位置信息
非端到端模型：具身分层模型（如 OpenVLA）以VLM为认知核心，将任务分解为感知、规划、控制三层架构，通过显式中间表示（如场景图、任务树）连接各模块。VLM（如GPT-4V、PaLI-X）解析视觉输入，生成场景描述（如"桌上有杯子，左侧有书本"）；符号推理引擎（如 PDDL 规划器）将语言指令转化为动作序列（如"移动→抓取→放置"）；传统控制器（如MPC、阻抗控制）执行底层运动

端到端模型又可拆分为预训练模型和非预训练模型，预训练模型（如 RDT）采用强化学习和 sim2real 的方式生成大量数据并进行迁移，具体可以参考这些文章；非预训练模型（如 DP）通过设计快速采集设备（如 UMI 和 Dexcap）通过模仿学习的方式采集海量真机数据具体可以参考这些文章

作为自己的核心研发方向，主要针对端到端模型进行研究

端到端模型底层核心采用了深度生成模型，如 ACT 基于 VAE，扩散策略基于扩散模型

因此先梳理一下生成式模型

1 判别式模型与生成式模型

人工智能（AI）模型可以大致分为两大类：判别式模型和生成式模型

1.1 判别式模型

判别式模型主要用于预测和分类任务。它们直接对输入数据进行建模，学习输入与目标标签之间的映射关系。典型的应用场景包括图像分类、语音识别以及自然语言处理中的文本分类。数学上，判别式模型通常直接估计后验概率 P(y|x)：

$P(y|x) = \frac{P(x, y)}{P(x)}$

其中，x 为输入数据，y 为类别或标签。常见的判别式模型有逻辑回归、支持向量机（SVM）、决策树以及深度神经网络中的卷积神经网络（CNN）和循环神经网络（RNN）

1.2 生成式模型

与判别式模型不同，生成式模型旨在根据用户需求自动生成内容，例如生成图片、语音、视频等，并支持调整输入参数以实现内容定制化。生成式模型不仅关注数据的条件关系，还要捕捉数据的整体分布，从而生成符合实际分布的新样本，支持多模态数据。数学上，生成式模型通常建立在对数据分布 P(x) 或条件分布 P(x|y) 的建模上。当前主流的深度生成模型可分为两大类：