J_Xiong0117-CSDN博客

原创视觉语言模型 (VLMs)：跨模态智能的探索

近年来，人工智能 (AI) 领域经历了爆炸式发展，深度学习作为核心驱动力，在计算机视觉 (CV) 和自然语言处理 (NLP) 领域均取得了里程碑式的突破！🎉 为了进一步拓展 AI 的能力边界，研究人员开始积极探索如何融合视觉和语言两大模态，构建能够理解、生成并跨越图像和文本的模型。视觉语言模型 (Vision-Language Models, VLMs) 正是在这一背景下应运而生，它致力于弥合视觉与语言之间的语义鸿沟，赋予机器如同人类一般的多模态感知和认知能力。🧠✨。

2025-01-23 16:34:22 2187

原创 LLMs的星辰大海：大语言模型的前世今生

大型语言模型（LLM）的崛起，犹如一场科技的奇点，正以惊人的速度重塑着我们与信息、与世界的互动模式。它们不再是冰冷的机器，而是具备理解、生成、甚至创造能力的智能体，展现出前所未有的潜力。然而，在这令人兴奋的机遇背后，也隐藏着复杂的技术挑战和深刻的伦理思考。本文将基于一系列精选参考文献[1-9]，从概念、技术、应用、挑战等多个维度，以抽丝剥茧的方式深入剖析LLM，共同揭开LLM的神秘面纱。

2025-01-20 18:34:59 1516

原创 Transformer：深度学习的变革力量

而 Transformer 的横空出世，以其独特的注意力机制和并行计算能力，彻底改变了序列建模的范式，为深度学习带来了革命性的变革。对于输入序列中的每个位置，Self-Attention 计算该位置与其他所有位置的关联程度，并根据关联程度加权求和，得到该位置的新的表示。Transformer 的出现是深度学习领域的一次革命性突破，它以独特的注意力机制和并行计算能力，彻底改变了序列建模的范式。RNN 通过循环结构处理序列数据，将当前时刻的输入和上一时刻的隐藏状态相结合，逐步提取序列的特征。

2025-01-09 10:45:19 1468

原创【VLNs篇】10：InternVLA-N1: 一个带有学习式潜在规划的开放双系统视觉-语言导航基础模型

InternVLA-N1是首个开放的双系统视觉-语言导航基础模型，它将任务解耦为系统2的规划与系统1的敏捷执行。该模型通过创新的异步训练范式，利用学习式潜在规划作为中间表示，实现了强大的零样本泛化能力。为支持训练，我们构建了迄今最大的导航数据集InternData-N1，使模型在多个基准上取得顶尖性能，并能在真实世界中进行长距离、实时导航。

2025-09-19 16:03:52 876

原创【VLMs篇】08：Multimodal Sequence Packing:多模态序列打包

本文提出了一种基于贪心装箱策略的图文数据打包算法，旨在高效地将多条图文对组合成固定长度的训练序列，以减少填充浪费并提升计算效率。算法核心步骤包括：1) 计算每条数据长度（文本+视觉token）；2) 按长度降序排序；3) 采用First-Fit Decreasing策略装箱；4) 对每个容器内的数据进行拼接和填充。该方案通过优先处理大样本显著减少空间碎片，相比随机打包可降低30-50%的填充率。实现时需注意视觉token处理、分隔符添加和超长样本截断等细节，适用于多模态模型的预训练和推理优化。

2025-09-18 14:26:22 689

原创【VLMs篇】07：Open-Qwen2VL:在学术资源上对完全开放的多模态大语言模型进行计算高效的预训练

本文介绍了Open-Qwen2VL，一个完全开源的20亿参数多模态大语言模型。该模型旨在解决当前SOTA模型预训练成本高昂且流程不透明的问题。通过采用高效的数据过滤技术（如MLM-Filter）、创新的多模态序列打包和动态图像分辨率策略，Open-Qwen2VL仅使用220个A100 GPU小时就在2900万图文对上完成了高效预训练，计算成本极低。

2025-09-11 16:12:02 1053

原创【VLMs篇】06：Cosmos-Reason1:从物理常识到具身推理

本文介绍了NVIDIA发布的Cosmos-Reason1模型，这是一个专为理解物理世界并进行决策的 multimodal 大语言模型家族。研究人员首先为“物理AI”定义了两个核心能力：物理常识和具身推理，并为此创建了系统的知识框架（本体）。基于此，他们构建了包含数百万视频和文本对的数据集，通过监督微调（SFT）和强化学习（RL）两个阶段训练了7B和56B两种规模的模型。实验证明，Cosmos-Reason1在物理世界理解、任务规划和时空推理方面表现出色，显著优于现有模型

2025-09-10 15:40:35 864

原创【VLNs篇】09：NavA³—理解任意指令，导航任意地点，找到任意物体

本文提出了一种名为NavA³的机器人导航框架，旨在让机器人能理解任意高级指令（如“帮我拿杯咖啡”），在任意复杂环境中导航，并找到任意目标物体。该框架通过一个分层策略解决这一挑战：首先，“全局策略”利用强大的视觉语言模型（VLM）理解指令并规划出最可能存在目标的大致区域（如“厨房”）；然后，“局部策略”在目标区域内，利用专门训练的NaviAfford模型进行精细化搜索和精准定位。实验证明，NavA³在真实世界中的长距离导航任务上表现卓越，远超现有方法，为通用型具身智能导航铺平了道路。

2025-09-08 18:14:37 819

原创【VLMs篇】05： MiniCPM-V 4.5 技术架构详解与代码深度解读

MiniCPM-V 4.5 是一个高效的端侧多模态大语言模型，支持图像、视频和文本输入。该模型通过创新的token压缩技术，实现了在8B参数规模下超越GPT-4o等主流模型的性能。

2025-09-04 17:05:54 1153

原创【VLMs篇】04：视觉token压缩技术深度解析

图片Token压缩技术不仅仅是一项优化技巧，它正在成为多模态大模型的**核心引擎**。它将模型从海量冗余数据中解放出来，使其更轻、更快、更专注。

2025-09-04 11:25:36 958

原创【LLMs篇】20：Claude Code 智能代理完全使用手册

claude code sub agent

2025-08-25 15:39:12 828

原创【LLMs篇】19：vLLM推理中的KV Cache技术全解析

KV Cache技术就像是一把神奇的钥匙，能够显著提升推理速度和降低计算成本。

2025-08-22 18:40:28 724

原创【LLMs篇】18：基于EasyR1的Qwen2.5-VL GRPO训练

本文档详细描述了使用EasyR1框架在Geometry3K数据集上运行Qwen2.5-VL GRPO训练的完整流程

2025-08-20 17:41:22 1045

原创【LLMs篇】17：组相对策略优化 GRPO

GRPO是一种基于强化学习的在线训练算法，是对传统近端策略优化（PPO）的改进版本。它专门设计用于增强语言模型的数学推理能力，同时优化PPO的内存使用效率。

2025-08-18 15:41:01 1015

原创【LLMs篇】16：戏说PPO与DPO

戏说PPO和DPO的区别

2025-08-06 15:55:37 331

原创【VLAs篇】07：VLN-PE 可扩展的VLN基准评估测试工具

摘要：本文提出VLN-PE平台，首次系统评估视觉-语言导航（VLN）模型在物理机器人（人形、四足、轮式）上的表现，揭示理想模拟与真实部署间的性能差距。实验显示，现有模型在物理挑战（如碰撞、跌倒、光照变化）下成功率平均下降34%。平台支持多模态数据（RGB-D）和跨形态训练，为提升具身AI的泛化能力提供新方向。研究呼吁社区关注物理真实性，推动VLN从仿真走向现实应用。

2025-07-28 14:01:10 906

原创【VLAs篇】06：从动作词元化视角谈VLA模型的综述

本论文从“动作词元化”这一创新视角，对视觉-语言-行动（VLA）模型进行了系统性综述。文章首先将现有VLA模型归纳到一个统一框架下，即通过VLA模块迭代处理视觉语言输入，生成最终动作。核心在于，论文将动作的中间表示形式——动作词元——划分为八大类别：语言描述、代码、可供性、轨迹、目标状态、潜层表示、原始动作和推理。针对每一类别，论文深入分析了其动机、关键技术、优缺点及未来研究方向，并辅以详尽的图表进行对比。此外，文章还梳理了可用于训练VLA模型的可扩展数据源。

2025-07-25 18:53:17 374

原创【工程篇】07：如何打包conda环境并拷贝到另一台服务器上

摘要：本文提供两种迁移Conda环境qwen2.5-vl至新服务器的方法。方法一使用conda pack打包完整环境（含二进制文件），适合无网络或需严格一致的场景，需操作系统兼容；方法二通过导出environment.yml配置文件重建环境，依赖网络但更轻量。步骤包括：源服务器打包/导出文件、传输至目标服务器、解压或重建环境并验证。推荐离线部署选方法一，跨平台协作选方法二。两种方式均需激活环境后验证关键包是否正常。

2025-07-15 14:13:10 571

原创【VLAs篇】05：RDT模型结构和流程分析

RDT模型是一个基于Transformer的扩散模型，专为机器人控制任务设计。模型采用多模态输入（状态、动作、语言指令和图像观测），通过独特的时间步和频率编码器处理时序信息。核心架构包含交替的交叉注意力层，使模型能深度融合语言和图像条件。数据处理采用HDF5格式，通过统一动作向量标准化不同机器人的状态表示，并随机采样episode时间点增强泛化性。训练时采用标准扩散损失，推理时使用高效的多步采样器生成动作序列。该模型设计精巧，融合了多模态信息处理、扩散模型和Transformer的最新进展。

2025-07-10 17:33:25 872

原创【VLAs篇】04：RDT一个用于双臂操作的扩散基础模型

本文提出了RDT-1B，一个拥有12亿参数的机器人双臂操作扩散基础模型。为解决双臂操作中动作多模态和数据稀缺的挑战，RDT-1B采用了创新的扩散变换器架构，并引入了“物理可解释的统一动作空间”，使其能在大规模、异构的多机器人数据上进行预训练。在真实机器人上的实验表明，该模型在零样本与少样本泛化方面表现卓越，能高效完成复杂的灵巧操作任务，显著优于现有方法。

2025-07-10 10:38:09 614

原创【工程篇】06：Isaac-GR00T robot_sim.PickNPlace 数据集详细分析报告

Isaac-GR00T项目中的demo_data/robot_sim.PickNPlace数据集专为GR1人形机器人双臂抓取任务设计，包含5个episode共2,096帧数据。数据集采用LeRobot兼容格式，包含高(800×1280)和低(256×256)两种分辨率视频、44维状态/动作空间（按身体部位划分）及6种pick-and-place任务标注。数据预处理采用多阶段变换管道，包括视频裁剪、颜色增强等操作，并配置了专为双臂操作优化的fourier_gr1_arms_only训练模式

2025-06-26 14:42:27 1191

原创【工程篇】05：GR00T从环境搭建到推理训练评估完整实战指南

GR00T（Generalist Robot 00 Technology）是由NVIDIA开发的通用机器人基础模型，支持自然语言理解和动作生成。本文档提供了完整的GR00T环境搭建指南，包含：1）系统要求与软件依赖准备；2）项目结构说明；3）自动化/手动环境配置方法；4）多模态数据加载测试；5）推理服务的客户端-服务器架构实现；6）模型微调策略与训练监控；7）性能评估指标与可视化分析。文档提供了全套自动化脚本，可完成从数据加载到评估的全流程测试，并详细说明了各项参数配置。

2025-06-17 15:45:03 1441 1

原创【工程篇】04： NVIDIA Isaac GR00T 代码结构分析

NVIDIA Isaac GR00T N1.5是一个开放的通用人形机器人基础模型，支持多模态输入（语言/图像）和多样化环境任务执行。项目采用模块化设计，包含核心模型架构（视觉-语言主干网络+动作头）、数据处理系统（支持多机器人配置）和实验配置系统。关键特性包括跨实体支持、多模态统一处理以及灵活的微调能力。模型架构基于EagleBackbone和FlowmatchingActionHead，数据处理系统采用智能采样策略，支持单/多机器人数据集处理。该项目为机器人开发提供了统一的基础模型框架。

2025-06-16 11:16:50 844

原创【VLAs篇】03：NVIDIA Isaac Sim—加速下一代智能机器人开发的终极平台

在众多仿真工具中，NVIDIA Isaac Sim 凭借其强大的渲染管线和前瞻性的技术架构，正迅速成为机器人仿真领域，特别是机器人学习中的一颗耀眼新星。

2025-06-11 18:07:20 1266

原创【VLNs篇】08：NeuPAN—基于端到端模型学习的直接点云机器人导航

本文提出NeuPAN，一种实时的端到端机器人导航框架，它直接利用原始点云数据，无需建图。该方法通过一个紧密耦合的感知-控制闭环，避免了传统流程中的误差传播。其核心是一个可解释的深度展开神经编码器（DUNE），将点云高效映射为潜在距离特征，并结合一个神经正则化运动规划器（NRMP）生成无碰撞动作。此框架被建模为一个端到端优化问题，保证了数学上的严谨性和物理可解释性。在多种机器人平台和复杂真实场景中的实验表明，NeuPAN在准确性、效率和泛化性上超越了现有先进方法，成功挑战了极度狭窄和拥挤的环境。

2025-06-10 11:31:08 1691 2

原创【VLNs篇】07：NavRL—在动态环境中学习安全飞行

本文提出深度强化学习框架NavRL，旨在解决无人机在动态环境中的安全导航难题。该框架基于PPO算法，通过精心设计的动静态分离的状态表示和归一化动作表示，成功实现了从仿真到真实世界的零样本迁移。其核心创新之一是引入基于速度障碍理论的安全护盾，能在线修正网络输出的危险指令，显著提升飞行安全性。结合大规模并行训练，NavRL在仿真与真实物理实验中均表现出卓越的避障性能和鲁棒性，碰撞率远低于现有方法。

2025-06-09 12:02:30 2221

原创【VLNs篇】06：SmartWay—面向零样本视觉语言导航的增强路径点预测与回溯

本文提出了一种名为SmartWay的零样本视觉语言导航（VLN-CE）框架，旨在解决连续环境中导航的鲁棒性和适应性问题。该框架由两个核心部分构成：一个增强的路径点预测器和一个基于多模态大语言模型（MLLM）的导航器。预测器通过采用更强的DINOv2视觉编码器、掩码交叉注意力和创新的占用感知损失，显著提升了路径点预测的质量与安全性。导航器则利用MLLM进行历史感知推理和自适应路径规划，并首次在连续环境中引入了关键的回溯机制，使智能体能从导航错误中恢复。

2025-06-06 16:34:21 857 1

原创【LLMs篇】15：通用智能体需要世界模型

本研究通过形式化证明，解决了通用人工智能是否必须依赖世界模型的关键问题。论文的核心论点是，任何能够泛化到多步、目标导向任务的智能体，都必然已经学习了一个关于其环境的预测性模型。研究表明，该内部模型的精度与智能体的性能（或能实现的目标复杂度）直接相关。更重要的是，这个世界模型可以仅从智能体的**策略（即其行为模式）**中被提取出来，而无需访问其内部结构。作者为此提供了一个理论上的提取算法，该算法通过向智能体提出精心设计的复杂决策任务来推断其对环境动态的“信念”。

2025-06-06 14:05:51 859

原创【LLMs篇】14：扩散语言模型的理论优势与局限性

本文对掩码扩散语言模型(MDM)的效率边界进行了系统研究，首次揭示了评估指标对模型效率结论的决定性影响。通过构建理论框架并定义词元错误率(TER)和序列错误率(SER)两个互补指标，研究发现：在衡量流畅性的TER指标下，MDM采样步数与序列长度无关(O(1))，展现显著效率优势；但在要求严谨性的SER指标下，步数必须与长度呈线性关系(O(L))，抵消了并行优势。实证验证显示，MDM在文本生成任务中高效，但在数学推理等需要高正确性的任务中效率受限。该研究为扩散模型的应用选择提供了理论基础。

2025-06-06 11:33:43 1100

原创【VLAs篇】02：Impromptu VLA—用于驱动视觉-语言-动作模型的开放权重和开放数据

Impromptu VLA：开放权重与数据驱动的视觉-语言-动作模型本研究提出Impromptu VLA数据集，旨在解决自动驾驶视觉-语言-动作(VLA)模型在非结构化场景中的性能瓶颈。该数据集从8个开源数据集超过200万视频剪辑中精选80,000个片段，基于创新的四类非结构化场景分类法构建（道路边界模糊、临时交规变更、非常规障碍物、恶劣路况）。通过结合VLM自动标注与人工验证，数据集提供了丰富的规划问答标注和动作轨迹。

2025-06-05 11:25:07 1497

原创【LLMs篇】13：LLaDA—大型语言扩散模型

摘要：论文提出LLaDA——首个基于扩散模型的大规模语言模型（8B参数），挑战自回归模型（ARM）在LLM领域的主导地位。LLaDA通过掩码扩散机制实现双向上下文建模，其核心创新包括：1）提出掩码预测器进行非自回归生成；2）采用渐进式重掩码策略优化生成质量；3）有效解决ARM的"反转诅咒"问题。实验表明，LLaDA在MMLU等基准上媲美LLaMA3 8B，并在反向诗歌补全任务中超越GPT-40。该研究为语言建模提供了新范式，证明扩散模型在可扩展性、指令遵循和复杂推理方面的潜力。

2025-06-04 19:13:58 1385 1

原创【VLAs篇】01：GROOT N1—面向通用人形机器人的开放基础模型

NVIDIA团队提出了面向通用人形机器人的开放基础模型GROOT N1，采用创新的双系统架构：系统2基于视觉-语言模型进行环境理解和任务规划，系统1则使用扩散变换器生成实时动作。研究提出了"数据金字塔"策略，融合真实机器人数据、人类视频和合成数据（仿真轨迹与神经轨迹）进行训练，并开发了有效的协同训练方法，包括潜行动作学习和逆动力学模型。实验表明，该模型在仿真和真实人形机器人GR-1上均表现出色，具有优越的泛化能力和数据效率。未来工作将扩展模型处理长时程任务的能力，并提升合成数据质量。

2025-06-03 18:51:42 1261

原创视觉语言动作模型 (VLAs) ：赋予机器行动的智慧

视觉语言动作模型（VLA）正推动具身智能迈上新台阶，实现AI从感知理解到物理交互的闭环。作为多模态技术的突破性进展，VLA将视觉编码器、语言编码器和动作解码器融合，赋予机器"看-懂-动"的完整能力链。前沿研究涌现出RT-2、GR00T等标志性模型，通过大规模预训练和架构创新，显著提升机器人的语义理解与任务执行能力。应用场景涵盖人形机器人、自动驾驶和医疗工业领域，NVIDIA的GR00T项目更将推动人形机器人通用基础模型发展。当前研究聚焦具身基础模型、世界建模、视频学习等方向，为通用人工智能奠定关键技术基础。

2025-06-03 17:25:22 1087

原创【VLMs篇】03：BAGEL-统一多模态预训练中的涌现特性

本文提出BAGEL，一个开源的多模态基础模型，通过仅解码器Transformer架构实现文本、图像和视频的统一理解与生成。创新性地采用混合Transformer专家(MoT)架构，使理解与生成任务通过共享自注意力实现交互。模型使用多样化交错多模态数据预训练，采用Rectified Flow方法实现视觉生成。随着规模扩展，模型展现出分阶段的涌现能力：从基础理解/生成到复杂编辑，再到长上下文推理与世界建模。

2025-05-28 17:49:14 934

原创【VLNs篇】05：TGS-在无地图室外环境中使用视觉语言模型进行轨迹生成和选择

在无地图室外环境中，导航面临非结构化越野特征的挑战。本研究提出了一种多模态轨迹生成与选择算法（TGS），旨在生成既满足可通行性约束又符合人类路径选择的轨迹。TGS结合了基于LiDAR的几何感知轨迹生成和基于视觉语言模型（VLM）的语义感知轨迹选择。通过条件变分自编码器（CVAE）生成多样化的候选轨迹，并利用VLM的零样本语义理解和逻辑推理能力，结合视觉提示方法选择最佳轨迹。

2025-05-22 18:59:13 1344

原创【VLNs篇】04：SayNav-为新环境中的动态规划到导航进行大型语言模型的基础构建

SayNav提出了一种基于大型语言模型（LLM）的导航规划方法，通过增量构建3D场景图作为LLM的输入，生成动态调整的高级导航计划。

2025-05-22 18:32:46 1329

原创【VLNs篇】03：VLMnav-端到端导航与视觉语言模型：将空间推理转化为问答

本研究提出VLMnav框架，创新性地将视觉语言模型(VLM)直接转化为零样本端到端导航策略。通过将复杂导航任务重构为VLM擅长的视觉问答形式，配合精心设计的提示策略（包含系统提示、任务描述、视觉标注动作选项和输出格式要求），实现了无需微调的直接动作决策。

2025-05-21 18:31:31 1351

原创【VLNs篇】02：NavGPT-在视觉与语言导航中使用大型语言模型进行显式推理

本文介绍了NavGPT，一个基于大型语言模型（LLM）的指令跟随导航智能体，旨在探索LLM在视觉与语言导航（VLN）任务中的推理能力。NavGPT通过零样本顺序动作预测，展示了LLM在复杂具身场景中的高级规划能力。其核心机制包括输入视觉观察的文本描述、导航历史和未来可探索方向，通过LLM推理智能体状态并输出决策。NavGPT的创新点在于其纯粹LLM驱动、零样本预测和显式高级推理能力，能够分解指令、整合常识知识、识别地标、跟踪进度并调整计划。

2025-05-21 14:30:02 1450

原创【LLMs篇】12：Qwen3 技术报告翻译

Qwen3 模型系列旨在提升大型语言模型的性能、效率和多语言能力，涵盖从0.6B到235B参数规模的密集型（Dense）和混合专家（MoE）架构。其核心创新包括统一的思考模式与非思考模式框架，支持动态模式切换和思考预算机制，优化计算资源分配。模型通过知识迁移减少小规模模型的计算需求，并在架构上引入QK-Norm和细粒度专家切分等技术。预训练采用三阶段策略，涵盖通用、推理和长上下文训练，后训练则包括复杂的四阶段流程和强到弱蒸馏方法。数据处理方面，开发了多语言标注系统，支持实例级优化。Qwen3支持119种语言

2025-05-21 11:31:32 1267

原创【工程篇】03：Miniconda安装

于在Ubuntu系统上一键安装Miniconda（Python 3），并自动配置环境变量

2025-05-20 18:08:53 196

五子棋代码

空空如也