自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(267)
  • 资源 (1)
  • 收藏
  • 关注

原创 视觉语言模型 (VLMs):跨模态智能的探索

近年来,人工智能 (AI) 领域经历了爆炸式发展,深度学习作为核心驱动力,在计算机视觉 (CV) 和自然语言处理 (NLP) 领域均取得了里程碑式的突破!🎉 为了进一步拓展 AI 的能力边界,研究人员开始积极探索如何融合视觉和语言两大模态,构建能够理解、生成并跨越图像和文本的模型。视觉语言模型 (Vision-Language Models, VLMs) 正是在这一背景下应运而生,它致力于弥合视觉与语言之间的语义鸿沟,赋予机器如同人类一般的多模态感知和认知能力。🧠✨。

2025-01-23 16:34:22 2527

原创 LLMs的星辰大海:大语言模型的前世今生

大型语言模型(LLM)的崛起,犹如一场科技的奇点,正以惊人的速度重塑着我们与信息、与世界的互动模式。它们不再是冰冷的机器,而是具备理解、生成、甚至创造能力的智能体,展现出前所未有的潜力。然而,在这令人兴奋的机遇背后,也隐藏着复杂的技术挑战和深刻的伦理思考。本文将基于一系列精选参考文献[1-9],从概念、技术、应用、挑战等多个维度,以抽丝剥茧的方式深入剖析LLM,共同揭开LLM的神秘面纱。

2025-01-20 18:34:59 1628

原创 Transformer:深度学习的变革力量

而 Transformer 的横空出世,以其独特的注意力机制和并行计算能力,彻底改变了序列建模的范式,为深度学习带来了革命性的变革。对于输入序列中的每个位置,Self-Attention 计算该位置与其他所有位置的关联程度,并根据关联程度加权求和,得到该位置的新的表示。Transformer 的出现是深度学习领域的一次革命性突破,它以独特的注意力机制和并行计算能力,彻底改变了序列建模的范式。RNN 通过循环结构处理序列数据,将当前时刻的输入和上一时刻的隐藏状态相结合,逐步提取序列的特征。

2025-01-09 10:45:19 1579

原创 【VLMs篇】14: BEVFormer v2: 通过透视监督使现代图像主干网络适应鸟瞰图识别

本文提出了 BEVFormer v2,一种新型的两阶段鸟瞰图(BEV)检测器,旨在解决现代图像主干网络(如 ConvNeXt、InternImage)难以适应 BEV 检测任务的问题。传统 BEV 模型常依赖于特定深度预训练的 VoVNet,而现代主干网络直接应用效果不佳。作者引入了“透视监督”,即在主干网络上增加一个辅助的透视 3D 检测头,利用密集的图像级监督引导主干网络学习 3D 知识。

2025-12-30 17:54:59 903

原创 【VLMs篇】13:BEVFormer: 基于时空Transformer从多视角图像学习鸟瞰图表示

本文提出了 **BEVFormer**,一种用于自动驾驶感知的创新 Transformer 框架。针对传统方法在 2D 到 3D 转换中的不适定问题及时间信息利用不足的痛点,BEVFormer通过**网格状 BEV 查询**,利用**空间交叉注意力**从多视角图像中提取空间特征,并通过**时序自注意力**从历史 BEV 中循环融合时间信息。这种设计统一了时空特征,无需依赖深度信息即可生成强大的鸟瞰图(BEV)表示。

2025-12-30 17:06:38 744

原创 【VLMs篇】12:Cambrian-S:迈向视频中的空间超感知

当前的视频多模态大模型(MLLMs)大多局限于语言理解和语义感知,缺乏真正的空间认知和对连续世界的建模能力。为此,本文提出了“空间超感知(Spatial Supersensing)”的概念,涵盖从流式事件认知到预测性世界建模的层级。作者推出了 VSI-SUPER 基准,包含长时程回忆(VSR)和持续计数(VSC)任务,以测试模型在无界视频流中的空间推理能力。

2025-12-29 17:50:23 738

原创 【VLMs篇】11:用于端到端目标检测的可变形Transformers(Deformable DETR)

DETR 作为端到端目标检测器,虽消除了手工设计组件,但面临收敛慢(500 epochs)和小目标检测差的问题,主要源于 Transformer 全局注意力的计算复杂度。本文提出 Deformable DETR,引入可变形注意力模块,仅关注参考点周围的稀疏关键采样点,而非全图像素。该方法结合了稀疏空间采样和多尺度特征融合,显著降低了计算复杂度。实验表明,Deformable DETR 在 COCO 基准上仅需 50 个 epoch(10倍加速)即可超越 DETR,且大幅提升了小目标检测精度。

2025-12-25 14:07:02 829

原创 【VLMs篇】10:使用Transformer的端到端目标检测(DETR)

本文提出了DETR(DEtection TRansformer),一种将目标检测视为直接集合预测问题的新范式。传统的检测方法依赖于非极大值抑制(NMS)和锚框(Anchor)等手工设计组件,而DETR通过结合Transformer架构和二分图匹配损失(Bipartite Matching Loss),实现了端到端的检测。该模型利用Transformer的全局注意力机制处理图像特征,并使用一组固定的可学习对象查询(Object Queries)并行输出预测结果。

2025-12-24 19:44:01 894

原创 【VLMs篇】09:一张图片等价于 16x16 个单词:用于大规模图像识别的 Transformers(ViT)

本文提出了一种名为 Vision Transformer (ViT) 的模型,挑战了卷积神经网络 (CNN) 在计算机视觉领域的主导地位。ViT 尽可能少地修改标准 Transformer 架构并直接应用于图像。其核心方法是将图像分割成固定大小的块(patches),将其线性嵌入后作为序列输入到 Transformer 中。研究发现,虽然 ViT 缺乏 CNN 固有的归纳偏置(如平移等变性和局部性),导致其在小数据集上表现不佳,但大规模数据集(如 JFT-300M)的预训练可以克服这一限制。

2025-12-24 16:19:46 956

原创 【VLNs篇】19:DualVLN(InternNav)模型结构和流程图及生成代码

DualVLN(InternNav)模型结构和流程图及生成代码

2025-12-23 16:47:00 311

原创 【VLNs篇】18:慢思考,快行动:用于泛化视觉语言导航的双系统基础模型DualVLN

本文提出了 DualVLN,一种用于视觉语言导航(VLN)的双系统基础模型,旨在解决现有端到端模型动作破碎、延迟高且难以避障的问题。DualVLN 模仿人类认知,由两个解耦系统组成:系统 2(慢系统)基于 7B 大模型进行全局规划,通过图像像素接地预测中期目标;系统 1(快系统)*是轻量级扩散策略,利用系统 2 的显式像素目标和隐式潜在查询,结合高频视觉输入生成平滑轨迹。这种设计既保留了 VLM 的强推理与泛化能力,又实现了 30Hz 的实时敏捷控制。

2025-12-18 14:42:27 686

原创 【NLUs篇】02:JPIS:一种结合槽位到意图注意力机制的基于画像的意图检测与槽位填充联合模型

本文提出了一种名为JPIS的联合模型,旨在解决自然语言处理中因缺乏上下文信息而导致的意图检测与槽位填充歧义问题。传统的模型往往忽略用户画像(如个人偏好)和环境上下文(如地理位置),导致在处理如“订去河内的票”这类模糊指令时表现不佳。JPIS不仅在编码器中有效整合了这些辅助画像信息,还创新性地引入了“槽位到意图”的注意力机制,利用槽位特征辅助意图识别。在中文基准数据集ProSLU上的实验显示,JPIS在整体准确率上显著优于现有模型,结合预训练语言模型后达到了86.67%的新SOTA水平。

2025-12-03 16:21:45 752

原创 【NLUs篇】01:JointBERT:用于联合意图分类和槽位填充的 BERT 模型

本文针对自然语言理解(NLU)任务中因标注数据匮乏而导致的泛化能力差的问题,提出了一种基于 BERT 的联合意图分类和槽位填充模型。传统的 NLU 方法(如 RNN、LSTM)在处理罕见词或小样本数据时往往表现不佳。作者利用 BERT 强大的预训练语言表示能力,通过简单的微调,在单一模型中同时完成意图识别和槽位填充任务。

2025-12-03 15:22:56 1090

原创 【VLNs篇】17:NaVid:基于视频的VLM规划视觉语言导航的下一步

本文提出了 NaVid,一种基于视频的大型视觉语言模型(VLM),旨在解决视觉语言导航(VLN)中的泛化难题。不同于依赖地图、深度图或里程计的传统方法,NaVid 仅利用单目 RGB 摄像头的实时视频流和自然语言指令,通过端到端的方式直接规划机器人的低级动作(如移动距离、旋转角度)。

2025-11-24 17:04:48 1130

原创 【VLNs篇】16:JanusVLN 训练 vs 评估中视觉观察数据使用详解

摘要: 本文分析了Qwen-VL模型的训练与评估阶段在数据处理和帧采样策略上的差异。训练阶段使用离线预收集的轨迹数据,采用基于视频长度的动态帧采样(4-8帧),并固定以第一帧作为参考帧。评估阶段则处理实时仿真环境的动态输入(1-9帧),使用增量式KV Cache处理机制。训练时批量处理所有帧,评估时采用StartRecentKVCache策略(56帧缓存)。两者在数据来源、帧采样方法、参考帧处理和KV Cache使用等方面存在显著差异,这些设计差异反映了离线训练与在线推理的不同需求。

2025-11-17 14:41:03 657

原创 【VLNs篇】15:JanusVLN 评估指标详解

JanusVLN 评估指标详解

2025-11-17 11:32:41 1149

原创 【VLAs篇】09:不要蒙蔽你的VLA:为OOD泛化对齐视觉表示

本文系统研究了视觉-语言-动作(VLA)模型在机器人任务微调过程中普遍存在的视觉表示退化问题。研究发现,标准的微调会导致模型“遗忘”其从预训练中继承的通用视觉知识,造成表示坍塌和注意力沉没,从而损害其在分布外(OOD)场景中的泛化能力。为解决此问题,论文提出了一种轻量级的“视觉表示对齐”方法,通过一个正则化损失,将VLA的内部视觉特征与一个固定的、强大的“视觉教师”模型的特征对齐。该方法有效保留了模型的语义基础,在不增加额外计算开销的情况下,显著提升了VLA模型在多样化、未知场景下的泛化性能。

2025-11-11 17:51:21 1023

原创 【VLAs篇】08:以实时速度运行VLA

本文展示了如何在一块消费级GPU上,实现先前被认为过于庞大而无法进行实时动态任务的视觉-语言-动作(VLA)模型的高速运行。研究团队通过一系列深度优化策略,如消除CPU开销、简化计算图和优化底层计算核心,成功将模型的推理延迟从超过100毫秒压缩至27.3毫秒。这使得模型能以30Hz的频率处理所有摄像头帧,实现了与人类相当的反应速度。在“抓取下落的笔”这一对时间要求极为苛刻的实验中,该优化策略取得了100%的成功率,证明了大型VLA模型在实时机器人控制领域的巨大潜力。

2025-11-04 11:52:47 984

原创 【VLNs篇】14:JanusVLN 代码解读

本文档详细解读 JanusVLN 项目的代码架构、核心模块、数据流程和关键实现细节。

2025-10-31 15:17:35 1234 1

原创 【VLNs篇】13:JanusVLN 数据说明

本文档详细说明 JanusVLN 项目中使用的数据集、数据格式、数据处理流程以及如何准备和配置数据。

2025-10-31 15:12:11 1041

原创 【VLNs篇】12:JanusVLN:通过双重隐式记忆解耦语义与空间性,用于视觉语言导航

本文提出了一种名为JanusVLN的新型视觉语言导航(VLN)框架。受人脑左右半球功能分工的启发,该框架创新性地设计了“双重隐式记忆”系统,将负责理解“是什么”的语义记忆与负责感知“在哪里”的空间几何记忆进行解耦和分离。这种设计允许智能体仅通过普通RGB摄像头就能高效地理解3D空间,解决了传统方法中存在的空间信息丢失、计算冗余和内存爆炸等问题。实验证明,JanusVLN在不需要额外3D数据的情况下,性能超越了现有顶尖模型,为开发更具空间感知能力的智能机器人开辟了新路径。

2025-10-29 11:26:26 1342

原创 【VLNs篇】11:Dynam3D: 动态分层3D令牌赋能视觉语言导航中的VLM

本文提出了一种名为Dynam3D的动态分层3D表示模型,专为视觉语言导航(VLN)任务设计。传统基于视频的大模型在真实3D导航中面临对3D几何理解不足、缺乏长期记忆和环境适应性差等挑战。Dynam3D通过将2D视觉特征投影到3D空间,构建了包含“补丁-实例-区域”三个层级的动态3D表示。该模型能够在线编码和定位3D物体实例,并根据环境变化动态更新其记忆,从而实现了更强的空间几何理解和长期记忆能力。通过大规模3D语言预训练和任务适配,Dynam3D在多个VLN基准测试中取得了当前最佳性能。

2025-10-28 16:48:48 1023

原创 【VLMs篇】08:Qwen3-VL-30B-A3B 两版本对比评测

Qwen3-VL模型对比分析 Instruct与Thinking版本在定位、性能和适用场景上存在显著差异。Instruct版本侧重快速响应和通用任务,在创意生成和指令执行上表现优异;而Thinking版本专精深度推理,在视觉分析、数学计算和多步推理任务中优势明显。评测显示,Thinking版本在图像理解、计算能力和图片排序等复杂任务上更胜一筹,但响应速度较慢。两者在表格识别和网页复刻方面均需改进。部署资源需求相近,但推理速度差异显著。

2025-10-11 17:07:18 1123

原创 【VLNs篇】10:InternVLA-N1: 一个带有学习式潜在规划的开放双系统视觉-语言导航基础模型

InternVLA-N1是首个开放的双系统视觉-语言导航基础模型,它将任务解耦为系统2的规划与系统1的敏捷执行。该模型通过创新的异步训练范式,利用学习式潜在规划作为中间表示,实现了强大的零样本泛化能力。为支持训练,我们构建了迄今最大的导航数据集InternData-N1,使模型在多个基准上取得顶尖性能,并能在真实世界中进行长距离、实时导航。

2025-09-19 16:03:52 1273

原创 【VLMs篇】08:Multimodal Sequence Packing:多模态序列打包

本文提出了一种基于贪心装箱策略的图文数据打包算法,旨在高效地将多条图文对组合成固定长度的训练序列,以减少填充浪费并提升计算效率。算法核心步骤包括:1) 计算每条数据长度(文本+视觉token);2) 按长度降序排序;3) 采用First-Fit Decreasing策略装箱;4) 对每个容器内的数据进行拼接和填充。该方案通过优先处理大样本显著减少空间碎片,相比随机打包可降低30-50%的填充率。实现时需注意视觉token处理、分隔符添加和超长样本截断等细节,适用于多模态模型的预训练和推理优化。

2025-09-18 14:26:22 793

原创 【VLMs篇】07:Open-Qwen2VL:在学术资源上对完全开放的多模态大语言模型进行计算高效的预训练

本文介绍了Open-Qwen2VL,一个完全开源的20亿参数多模态大语言模型。该模型旨在解决当前SOTA模型预训练成本高昂且流程不透明的问题。通过采用高效的数据过滤技术(如MLM-Filter)、创新的多模态序列打包和动态图像分辨率策略,Open-Qwen2VL仅使用220个A100 GPU小时就在2900万图文对上完成了高效预训练,计算成本极低。

2025-09-11 16:12:02 1160

原创 【VLMs篇】06:Cosmos-Reason1:从物理常识到具身推理

本文介绍了NVIDIA发布的Cosmos-Reason1模型,这是一个专为理解物理世界并进行决策的 multimodal 大语言模型家族。研究人员首先为“物理AI”定义了两个核心能力:物理常识和具身推理,并为此创建了系统的知识框架(本体)。基于此,他们构建了包含数百万视频和文本对的数据集,通过监督微调(SFT)和强化学习(RL)两个阶段训练了7B和56B两种规模的模型。实验证明,Cosmos-Reason1在物理世界理解、任务规划和时空推理方面表现出色,显著优于现有模型

2025-09-10 15:40:35 1005

原创 【VLNs篇】09:NavA³—理解任意指令,导航任意地点,找到任意物体

本文提出了一种名为NavA³的机器人导航框架,旨在让机器人能理解任意高级指令(如“帮我拿杯咖啡”),在任意复杂环境中导航,并找到任意目标物体。该框架通过一个分层策略解决这一挑战:首先,“全局策略”利用强大的视觉语言模型(VLM)理解指令并规划出最可能存在目标的大致区域(如“厨房”);然后,“局部策略”在目标区域内,利用专门训练的NaviAfford模型进行精细化搜索和精准定位。实验证明,NavA³在真实世界中的长距离导航任务上表现卓越,远超现有方法,为通用型具身智能导航铺平了道路。

2025-09-08 18:14:37 982

原创 【VLMs篇】05: MiniCPM-V 4.5 技术架构详解与代码深度解读

MiniCPM-V 4.5 是一个高效的端侧多模态大语言模型,支持图像、视频和文本输入。该模型通过创新的token压缩技术,实现了在8B参数规模下超越GPT-4o等主流模型的性能。

2025-09-04 17:05:54 2644

原创 【VLMs篇】04:视觉token压缩技术深度解析

图片Token压缩技术不仅仅是一项优化技巧,它正在成为多模态大模型的**核心引擎**。它将模型从海量冗余数据中解放出来,使其更轻、更快、更专注。

2025-09-04 11:25:36 1210

原创 【LLMs篇】20:Claude Code 智能代理完全使用手册

claude code sub agent

2025-08-25 15:39:12 1151

原创 【LLMs篇】19:vLLM推理中的KV Cache技术全解析

KV Cache技术就像是一把神奇的钥匙,能够显著提升推理速度和降低计算成本。

2025-08-22 18:40:28 1265

原创 【LLMs篇】18:基于EasyR1的Qwen2.5-VL GRPO训练

本文档详细描述了使用EasyR1框架在Geometry3K数据集上运行Qwen2.5-VL GRPO训练的完整流程

2025-08-20 17:41:22 1607

原创 【LLMs篇】17:组相对策略优化 GRPO

GRPO是一种基于强化学习的在线训练算法,是对传统近端策略优化(PPO)的改进版本。它专门设计用于增强语言模型的数学推理能力,同时优化PPO的内存使用效率。

2025-08-18 15:41:01 1299

原创 【LLMs篇】16:戏说PPO与DPO

戏说PPO和DPO的区别

2025-08-06 15:55:37 363

原创 【VLAs篇】07:VLN-PE 可扩展的VLN基准评估测试工具

摘要: 本文提出VLN-PE平台,首次系统评估视觉-语言导航(VLN)模型在物理机器人(人形、四足、轮式)上的表现,揭示理想模拟与真实部署间的性能差距。实验显示,现有模型在物理挑战(如碰撞、跌倒、光照变化)下成功率平均下降34%。平台支持多模态数据(RGB-D)和跨形态训练,为提升具身AI的泛化能力提供新方向。研究呼吁社区关注物理真实性,推动VLN从仿真走向现实应用。

2025-07-28 14:01:10 1049

原创 【VLAs篇】06:从动作词元化视角谈VLA模型的综述

本论文从“动作词元化”这一创新视角,对视觉-语言-行动(VLA)模型进行了系统性综述。文章首先将现有VLA模型归纳到一个统一框架下,即通过VLA模块迭代处理视觉语言输入,生成最终动作。核心在于,论文将动作的中间表示形式——动作词元——划分为八大类别:语言描述、代码、可供性、轨迹、目标状态、潜层表示、原始动作和推理。针对每一类别,论文深入分析了其动机、关键技术、优缺点及未来研究方向,并辅以详尽的图表进行对比。此外,文章还梳理了可用于训练VLA模型的可扩展数据源。

2025-07-25 18:53:17 560

原创 【工程篇】07:如何打包conda环境并拷贝到另一台服务器上

摘要: 本文提供两种迁移Conda环境qwen2.5-vl至新服务器的方法。方法一使用conda pack打包完整环境(含二进制文件),适合无网络或需严格一致的场景,需操作系统兼容;方法二通过导出environment.yml配置文件重建环境,依赖网络但更轻量。步骤包括:源服务器打包/导出文件、传输至目标服务器、解压或重建环境并验证。推荐离线部署选方法一,跨平台协作选方法二。两种方式均需激活环境后验证关键包是否正常。

2025-07-15 14:13:10 818

原创 【VLAs篇】05:RDT模型结构和流程分析

RDT模型是一个基于Transformer的扩散模型,专为机器人控制任务设计。模型采用多模态输入(状态、动作、语言指令和图像观测),通过独特的时间步和频率编码器处理时序信息。核心架构包含交替的交叉注意力层,使模型能深度融合语言和图像条件。数据处理采用HDF5格式,通过统一动作向量标准化不同机器人的状态表示,并随机采样episode时间点增强泛化性。训练时采用标准扩散损失,推理时使用高效的多步采样器生成动作序列。该模型设计精巧,融合了多模态信息处理、扩散模型和Transformer的最新进展。

2025-07-10 17:33:25 1037

原创 【VLAs篇】04:RDT一个用于双臂操作的扩散基础模型

本文提出了RDT-1B,一个拥有12亿参数的机器人双臂操作扩散基础模型。为解决双臂操作中动作多模态和数据稀缺的挑战,RDT-1B采用了创新的扩散变换器架构,并引入了“物理可解释的统一动作空间”,使其能在大规模、异构的多机器人数据上进行预训练。在真实机器人上的实验表明,该模型在零样本与少样本泛化方面表现卓越,能高效完成复杂的灵巧操作任务,显著优于现有方法。

2025-07-10 10:38:09 723

五子棋代码

(C++)_完美版.doc 很全面

2014-03-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除