bhoigu-CSDN博客

原创 EMO2：基于末端执行器引导的音频驱动虚拟形象视频生成

今天带来EMO2，（全称End-Effector Guided Audio-Driven Avatar Video Generation）是阿里巴巴智能计算研究院研发的创新型音频驱动视频生成技术。该技术通过结合音频输入和静态人像照片，生成高度逼真且富有表现力的动态视频内容，值得一提的是目前阿里并没有开源这个项目，所以今天内容仅供学习（阿里的EMO一代到目前都还没有开源，所以等项目开源那是遥遥无期）欢迎大家再评论区讨论

2025-05-30 22:01:34 701

原创 Diffusion Planner:扩散模型重塑自动驾驶路径规划（ICLR‘25）

2025年2月14日，清华大学AIR智能产业研究院联合毫末智行、中科院自动化所和香港中文大学团队，在ICLR 2025会议上发布了Diffusion Planner——一种创新性的基于Diffusion Transformer的自动驾驶规划模型架构。该系统联合建模周车运动预测与自车行为规划，显著提升了复杂场景下的决策效率与稳定性，克服了传统学习方法对后处理的依赖，推动了自动驾驶系统从“黑盒生成”走向“可控可调”的新时代。

2025-05-29 21:08:57 401

原创 LLM-MPC混合架构:车载大语言模型用来增强自动驾驶系统

2025年，苏黎世研究团队在RSS2025会议上正式提出「LLM-MPC混合架构」，标志着大语言模型（LLM）在自动驾驶系统中的实用化迈出关键一步。该方案旨在解决传统深度学习模型在极端交通场景中泛化能力不足的问题。通过在车载终端边缘部署LLM，并融合模型预测控制（MPC）技术，系统在保持实时性与安全性的同时，推理速度提升10.5倍，为复杂环境中的高鲁棒决策提供全新范式。

2025-05-28 22:12:30 942

原创 ANIMATEDIFF: 无需特定微调，实现个性化文本到图像扩散模型的动画化

为已有的高质量个性化的模型添加运动动态，使其生成动画（gif动图）随着文本到图像（T2I）扩散模型（如 Stable Diffusion）以及相应个性化技术（如 DreamBooth 和 LoRA）的发展，每个人都可以以较低的成本将自己的想象转化为高质量的图像。

2025-05-27 16:13:07 2134

原创智源线虫登Nature子刊封面,具身智能迎新纪元

BAAIWorm天宝不仅是生物模拟的突破，更为具身智能与AGI研究提供了生物启发的新范式。它所倡导的闭环思维、系统整合和结构还原，为未来构建拥有真实感知、运动与决策能力的人工智能系统打下坚实基础。

2025-05-26 15:38:51 816

原创 DriveDreamer4D:将世界模型运用于自动驾驶

本文介绍24年11月来自极佳科技、中科院自动化所、理想汽车、北大和慕尼黑工大的论文“DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation”随着端到端自动驾驶系统的发展，对高质量闭环仿真系统的需求日益增长。现有的传感器建模方法（如 NeRF 和 3DGS）由于依赖训练数据分布，主要局限于前向驾驶场景，难以还原复杂动态，如变道、加减速等。

2025-05-25 11:35:15 897

原创 DiffusionDrive：迈向生成式多模态端到端自动驾驶

DiffusionDrive 是由地平线公司与华中科技大学于 2025年3月26日联合发布的一项面向自动驾驶与智能决策的新型扩散模型方法。该模型基于条件扩散机制，实现了多模态、高鲁棒性的轨迹规划能力，标志着扩散模型在实际决策任务中的首次高效落地，相关研究成果在多个开放数据集上取得了领先性能。

2025-05-25 10:59:47 826

原创 SpatialLM：开源3D视觉大模型，实时识别场景内容

在GTC2025全球大会上，群核科技宣布开源其自主研发的空间理解模型SpatialLM。该模型仅通过一段视频即可生成物理正确的3D场景布局。SpatialLM专门设计用来处理点云数据并进行空间理解。该模型通过分析来自不同来源的数据（如手机视频、RGBD图像、LiDAR传感器等），重建和理解三维环境。它能够将杂乱无章的3D点云转化为结构化的空间描述，包括房间布局、物体位置和尺寸、墙壁、窗户、门等关键信息。这种能力对于机器人在现实环境中的导航、避障、物品搬运等任务至关重要。

2025-05-24 22:01:09 803

原创 Genie 2:打造无限可能的 3D 交互世界!

2024年12月，DeepMind 在美国发布了其最新的生成式世界建模系统 —— Genie 2。作为原始 Genie 模型的升级版本，Genie 2 能够仅通过一张图片与一句文本提示，如“一个可爱的机器人在森林中”，自动生成一个具有交互性的 3D 虚拟环境，具备物理一致性与无限延展性。该系统标志着在生成式 AI 与虚拟环境构建领域的一次重大突破。

2025-05-24 21:41:09 425

原创 UniVLA：让不同机器人说同一种“动作语言“

想象一下在不远的未来，通用机器人真正走进了日常生活。我们希望当你发出一条自然语言指令，无论是“帮我给猫喂食”，还是“帮我关掉台灯”，它都能够理解你的意图，并准确地完成动作——不依赖预定义的任务模板，也不受限于曾经训练过的数据分布。2025年5月，香港大学、OpenDriveLab和AgiBot的研究团队发表了一项突破性研究《Learning to Act Anywhere with Task-centric Latent Actions》（基于任务中心潜在动作的广域行动学习）。

2025-05-23 15:27:10 611

原创 NaVILA：具身智能新发展，让机器人听懂“人话”

NaVILA（Navigation via Vision, Language, and Action）是英伟达（NVIDIA）与美国加利福尼亚大学于2024年年底联合提出的最新开源机器人导航框架。该框架的核心目标是让机器人“听懂人话，并在真实世界中完成任务”。NaVILA突破了传统机器人导航对地图和传感器的依赖，以更自然、更灵活的方式在人类环境中导航执行任务。NaVILA旨在解决视觉和语言导航问题。

2025-05-22 21:32:54 608

原创 AIGC：助力虚拟数字人飞速发展

AIGC（人工智能生成内容）以其强大的智能生成能力，正在引领一场前所未有的技术革命。在这场革命中，虚拟数字人作为AIGC的重要应用领域，正逐渐展现出其巨大的潜力和价值。

2025-05-21 14:36:15 377 1

bhoigu的博客