- 博客(227)
- 资源 (1)
- 收藏
- 关注

原创 视觉语言模型 (VLMs):跨模态智能的探索
近年来,人工智能 (AI) 领域经历了爆炸式发展,深度学习作为核心驱动力,在计算机视觉 (CV) 和自然语言处理 (NLP) 领域均取得了里程碑式的突破!🎉 为了进一步拓展 AI 的能力边界,研究人员开始积极探索如何融合视觉和语言两大模态,构建能够理解、生成并跨越图像和文本的模型。视觉语言模型 (Vision-Language Models, VLMs) 正是在这一背景下应运而生,它致力于弥合视觉与语言之间的语义鸿沟,赋予机器如同人类一般的多模态感知和认知能力。🧠✨。
2025-01-23 16:34:22
1848

原创 LLMs的星辰大海:大语言模型的前世今生
大型语言模型(LLM)的崛起,犹如一场科技的奇点,正以惊人的速度重塑着我们与信息、与世界的互动模式。它们不再是冰冷的机器,而是具备理解、生成、甚至创造能力的智能体,展现出前所未有的潜力。然而,在这令人兴奋的机遇背后,也隐藏着复杂的技术挑战和深刻的伦理思考。本文将基于一系列精选参考文献[1-9],从概念、技术、应用、挑战等多个维度,以抽丝剥茧的方式深入剖析LLM,共同揭开LLM的神秘面纱。
2025-01-20 18:34:59
1413

原创 Transformer:深度学习的变革力量
而 Transformer 的横空出世,以其独特的注意力机制和并行计算能力,彻底改变了序列建模的范式,为深度学习带来了革命性的变革。对于输入序列中的每个位置,Self-Attention 计算该位置与其他所有位置的关联程度,并根据关联程度加权求和,得到该位置的新的表示。Transformer 的出现是深度学习领域的一次革命性突破,它以独特的注意力机制和并行计算能力,彻底改变了序列建模的范式。RNN 通过循环结构处理序列数据,将当前时刻的输入和上一时刻的隐藏状态相结合,逐步提取序列的特征。
2025-01-09 10:45:19
1380
原创 【VLAs篇】03:NVIDIA Isaac Sim—加速下一代智能机器人开发的终极平台
在众多仿真工具中,NVIDIA Isaac Sim 凭借其强大的渲染管线和前瞻性的技术架构,正迅速成为机器人仿真领域,特别是机器人学习中的一颗耀眼新星。
2025-06-11 18:07:20
685
原创 【VLNs篇】08:NeuPAN—基于端到端模型学习的直接点云机器人导航
本文提出NeuPAN,一种实时的端到端机器人导航框架,它直接利用原始点云数据,无需建图。该方法通过一个紧密耦合的感知-控制闭环,避免了传统流程中的误差传播。其核心是一个可解释的深度展开神经编码器(DUNE),将点云高效映射为潜在距离特征,并结合一个神经正则化运动规划器(NRMP)生成无碰撞动作。此框架被建模为一个端到端优化问题,保证了数学上的严谨性和物理可解释性。在多种机器人平台和复杂真实场景中的实验表明,NeuPAN在准确性、效率和泛化性上超越了现有先进方法,成功挑战了极度狭窄和拥挤的环境。
2025-06-10 11:31:08
569
原创 【VLNs篇】07:NavRL—在动态环境中学习安全飞行
本文提出深度强化学习框架NavRL,旨在解决无人机在动态环境中的安全导航难题。该框架基于PPO算法,通过精心设计的动静态分离的状态表示和归一化动作表示,成功实现了从仿真到真实世界的零样本迁移。其核心创新之一是引入基于速度障碍理论的安全护盾,能在线修正网络输出的危险指令,显著提升飞行安全性。结合大规模并行训练,NavRL在仿真与真实物理实验中均表现出卓越的避障性能和鲁棒性,碰撞率远低于现有方法。
2025-06-09 12:02:30
968
原创 【VLNs篇】06:SmartWay—面向零样本视觉语言导航的增强路径点预测与回溯
本文提出了一种名为SmartWay的零样本视觉语言导航(VLN-CE)框架,旨在解决连续环境中导航的鲁棒性和适应性问题。该框架由两个核心部分构成:一个增强的路径点预测器和一个基于多模态大语言模型(MLLM)的导航器。预测器通过采用更强的DINOv2视觉编码器、掩码交叉注意力和创新的占用感知损失,显著提升了路径点预测的质量与安全性。导航器则利用MLLM进行历史感知推理和自适应路径规划,并首次在连续环境中引入了关键的回溯机制,使智能体能从导航错误中恢复。
2025-06-06 16:34:21
691
原创 【LLMs篇】15:通用智能体需要世界模型
本研究通过形式化证明,解决了通用人工智能是否必须依赖世界模型的关键问题。论文的核心论点是,任何能够泛化到多步、目标导向任务的智能体,都必然已经学习了一个关于其环境的预测性模型。研究表明,该内部模型的精度与智能体的性能(或能实现的目标复杂度)直接相关。更重要的是,这个世界模型可以仅从智能体的**策略(即其行为模式)**中被提取出来,而无需访问其内部结构。作者为此提供了一个理论上的提取算法,该算法通过向智能体提出精心设计的复杂决策任务来推断其对环境动态的“信念”。
2025-06-06 14:05:51
732
原创 【LLMs篇】14:扩散语言模型的理论优势与局限性
本文对掩码扩散语言模型(MDM)的效率边界进行了系统研究,首次揭示了评估指标对模型效率结论的决定性影响。通过构建理论框架并定义词元错误率(TER)和序列错误率(SER)两个互补指标,研究发现:在衡量流畅性的TER指标下,MDM采样步数与序列长度无关(O(1)),展现显著效率优势;但在要求严谨性的SER指标下,步数必须与长度呈线性关系(O(L)),抵消了并行优势。实证验证显示,MDM在文本生成任务中高效,但在数学推理等需要高正确性的任务中效率受限。该研究为扩散模型的应用选择提供了理论基础。
2025-06-06 11:33:43
538
原创 【VLAs篇】02:Impromptu VLA—用于驱动视觉-语言-动作模型的开放权重和开放数据
Impromptu VLA:开放权重与数据驱动的视觉-语言-动作模型 本研究提出Impromptu VLA数据集,旨在解决自动驾驶视觉-语言-动作(VLA)模型在非结构化场景中的性能瓶颈。该数据集从8个开源数据集超过200万视频剪辑中精选80,000个片段,基于创新的四类非结构化场景分类法构建(道路边界模糊、临时交规变更、非常规障碍物、恶劣路况)。通过结合VLM自动标注与人工验证,数据集提供了丰富的规划问答标注和动作轨迹。
2025-06-05 11:25:07
1027
原创 【LLMs篇】13:LLaDA—大型语言扩散模型
摘要: 论文提出LLaDA——首个基于扩散模型的大规模语言模型(8B参数),挑战自回归模型(ARM)在LLM领域的主导地位。LLaDA通过掩码扩散机制实现双向上下文建模,其核心创新包括:1)提出掩码预测器进行非自回归生成;2)采用渐进式重掩码策略优化生成质量;3)有效解决ARM的"反转诅咒"问题。实验表明,LLaDA在MMLU等基准上媲美LLaMA3 8B,并在反向诗歌补全任务中超越GPT-40。该研究为语言建模提供了新范式,证明扩散模型在可扩展性、指令遵循和复杂推理方面的潜力。
2025-06-04 19:13:58
899
原创 【VLAs篇】01:GROOT N1—面向通用人形机器人的开放基础模型
NVIDIA团队提出了面向通用人形机器人的开放基础模型GROOT N1,采用创新的双系统架构:系统2基于视觉-语言模型进行环境理解和任务规划,系统1则使用扩散变换器生成实时动作。研究提出了"数据金字塔"策略,融合真实机器人数据、人类视频和合成数据(仿真轨迹与神经轨迹)进行训练,并开发了有效的协同训练方法,包括潜行动作学习和逆动力学模型。实验表明,该模型在仿真和真实人形机器人GR-1上均表现出色,具有优越的泛化能力和数据效率。未来工作将扩展模型处理长时程任务的能力,并提升合成数据质量。
2025-06-03 18:51:42
781
原创 视觉语言动作模型 (VLAs) :赋予机器行动的智慧
视觉语言动作模型(VLA)正推动具身智能迈上新台阶,实现AI从感知理解到物理交互的闭环。作为多模态技术的突破性进展,VLA将视觉编码器、语言编码器和动作解码器融合,赋予机器"看-懂-动"的完整能力链。前沿研究涌现出RT-2、GR00T等标志性模型,通过大规模预训练和架构创新,显著提升机器人的语义理解与任务执行能力。应用场景涵盖人形机器人、自动驾驶和医疗工业领域,NVIDIA的GR00T项目更将推动人形机器人通用基础模型发展。当前研究聚焦具身基础模型、世界建模、视频学习等方向,为通用人工智能奠定关键技术基础。
2025-06-03 17:25:22
778
原创 【VLMs篇】03:BAGEL-统一多模态预训练中的涌现特性
本文提出BAGEL,一个开源的多模态基础模型,通过仅解码器Transformer架构实现文本、图像和视频的统一理解与生成。创新性地采用混合Transformer专家(MoT)架构,使理解与生成任务通过共享自注意力实现交互。模型使用多样化交错多模态数据预训练,采用Rectified Flow方法实现视觉生成。随着规模扩展,模型展现出分阶段的涌现能力:从基础理解/生成到复杂编辑,再到长上下文推理与世界建模。
2025-05-28 17:49:14
743
原创 【VLNs篇】05:TGS-在无地图室外环境中使用视觉语言模型进行轨迹生成和选择
在无地图室外环境中,导航面临非结构化越野特征的挑战。本研究提出了一种多模态轨迹生成与选择算法(TGS),旨在生成既满足可通行性约束又符合人类路径选择的轨迹。TGS结合了基于LiDAR的几何感知轨迹生成和基于视觉语言模型(VLM)的语义感知轨迹选择。通过条件变分自编码器(CVAE)生成多样化的候选轨迹,并利用VLM的零样本语义理解和逻辑推理能力,结合视觉提示方法选择最佳轨迹。
2025-05-22 18:59:13
1181
原创 【VLNs篇】04:SayNav-为新环境中的动态规划到导航进行大型语言模型的基础构建
SayNav提出了一种基于大型语言模型(LLM)的导航规划方法,通过增量构建3D场景图作为LLM的输入,生成动态调整的高级导航计划。
2025-05-22 18:32:46
1168
原创 【VLNs篇】03:VLMnav-端到端导航与视觉语言模型:将空间推理转化为问答
本研究提出VLMnav框架,创新性地将视觉语言模型(VLM)直接转化为零样本端到端导航策略。通过将复杂导航任务重构为VLM擅长的视觉问答形式,配合精心设计的提示策略(包含系统提示、任务描述、视觉标注动作选项和输出格式要求),实现了无需微调的直接动作决策。
2025-05-21 18:31:31
1130
原创 【VLNs篇】02:NavGPT-在视觉与语言导航中使用大型语言模型进行显式推理
本文介绍了NavGPT,一个基于大型语言模型(LLM)的指令跟随导航智能体,旨在探索LLM在视觉与语言导航(VLN)任务中的推理能力。NavGPT通过零样本顺序动作预测,展示了LLM在复杂具身场景中的高级规划能力。其核心机制包括输入视觉观察的文本描述、导航历史和未来可探索方向,通过LLM推理智能体状态并输出决策。NavGPT的创新点在于其纯粹LLM驱动、零样本预测和显式高级推理能力,能够分解指令、整合常识知识、识别地标、跟踪进度并调整计划。
2025-05-21 14:30:02
1308
原创 【LLMs篇】12:Qwen3 技术报告翻译
Qwen3 模型系列旨在提升大型语言模型的性能、效率和多语言能力,涵盖从0.6B到235B参数规模的密集型(Dense)和混合专家(MoE)架构。其核心创新包括统一的思考模式与非思考模式框架,支持动态模式切换和思考预算机制,优化计算资源分配。模型通过知识迁移减少小规模模型的计算需求,并在架构上引入QK-Norm和细粒度专家切分等技术。预训练采用三阶段策略,涵盖通用、推理和长上下文训练,后训练则包括复杂的四阶段流程和强到弱蒸馏方法。数据处理方面,开发了多语言标注系统,支持实例级优化。Qwen3支持119种语言
2025-05-21 11:31:32
796
原创 【VLNs篇】01:视觉语言导航(VLN)中的LLM角色
想象一下这个场景:你慵懒地躺在沙发上,突然想起,“嘿,我的水瓶落在厨房咖啡机旁边那个高柜台上了,能帮我拿过来吗?” 对于人类来说,这是一个简单的请求。但对于一个机器人助手,理解并准确执行这个指令,需要一套复杂的认知能力
2025-04-29 15:38:38
1044
原创 【LLMs篇】11:大模型全参数训练显存计算
大型语言模型 (LLM) 和多模态模型取得了惊人的进展,但训练这些庞然大物也带来了巨大的挑战,其中最突出的就是令人咋舌的 GPU 显存需求。动辄数十亿甚至上万亿参数的模型,仅仅是加载模型本身就需要海量的显存。然而,除了模型参数、梯度和优化器状态之外,还有一个常常被低估的显存消耗者——激活值 (Activations)。
2025-04-29 12:01:58
1139
原创 【LLMs篇】10:让大模型更快更省显存的魔法FlashAttention
FlashAttention旨在加速注意力计算并减少内存占用。FlashAttention利用底层硬件的内存层次知识,例如GPU的内存层次结构,来提高计算速度和减少内存访问开销。
2025-04-22 11:15:26
1048
原创 【LLMs篇】09:白话PPO训练
简单来说,强化学习就是让一个“智能体”(agent,比如游戏里的你)通过与“环境”(environment,比如游戏世界)交互来学习最优的“策略”(policy,也就是在某个情况下应该做什么动作)。智能体做出一个动作,环境会给它一个“奖励”(reward),智能体根据奖励的好坏来调整自己的策略,争取以后获得更多奖励。
2025-04-18 16:44:47
894
原创 视觉语言导航(VLN):连接语言、视觉与行动的桥梁
视觉语言导航(Visual Language Navigation,VLN)是人工智能领域一个快速发展的交叉学科研究方向,融合了计算机视觉(CV)、自然语言处理(NLP)、机器人学和强化学习(RL)。其核心任务是训练一个智能体(Agent),使其能够理解自然语言指令,并在真实的或模拟的视觉环境中导航至目标位置。
2025-04-16 18:24:00
1320
原创 【LLMs篇】08:LLM推理加速的方法与实践
大语言模型(LLM)的强大能力伴随着高昂的推理成本。在推理阶段,LLM需要逐字逐句地自回归生成文本,这导致计算延迟高、内存占用大、吞吐低等挑战
2025-03-24 12:03:04
1064
原创 【LLMs篇】07:Qwen 全系列模型技术解读
Qwen是阿里云开发的一系列大型语言模型(LLM)和多模态模型家族,涵盖从基础语言模型到视觉、音频等多模态模型。
2025-03-19 18:26:25
1560
原创 【LLMs篇】06:Encoder-Only vs Decoder-Only vs Encoder-Decoder
当前大多数大型语言模型 (LLM) 采用 Decoder-only 架构
2025-03-19 17:20:00
642
原创 【LLMs篇】05:RMSNorm
将 Layer Normalization (LN) 改成 RMSNorm (Root Mean Square Layer Normalization) 并将位置从输出层移动到输入层,是 Llama 模型中一个重要的优化.
2025-03-19 16:33:26
571
原创 【LLMs篇】04:混合专家模型MoE
混合专家模型(MoE)是一种强大且具有潜力的模型架构,它通过“分而治之”和“专家协同”的思想,有效解决了模型规模与计算效率之间的矛盾。MoE 在自然语言处理、计算机视觉等领域取得了显著的成果,尤其是在构建超大规模模型方面展现出巨大优势。尽管 MoE 的训练、调参和理论分析仍面临挑战,但随着研究的不断深入,相信 MoE 将在未来的人工智能领域扮演更重要的角色。
2025-03-03 15:25:26
803
原创 【LLMs篇】03:PPO和GRPO
PPO 是一种非常流行的强化学习算法,以其稳定性和样本效率而闻名。它属于策略梯度(Policy Gradient)方法的一种,但通过一些巧妙的技巧解决了传统策略梯度方法中步长选择困难、容易导致策略崩溃的问题。
2025-02-27 14:44:04
1084
原创 【LLMs篇】02:国产之光DeepSeek
2025年春节前后,一个“来自东方的神秘力量”引发全球资本市场和AI圈震荡。DeepSeek,让英伟达股价下跌16.97%,市值一日内蒸发近6000亿美元,创美国历史上任何一家公司的单日最大市值损失。此外,人工智能领域的衍生品,比如电力供应商也受到重创,美国联合能源公司股价下跌21%,Vistra的股价下跌29%。DeepSeek的最新突破,动摇了美国科技行业的地位,引发全球关注。从下载量来看,根据AI产品榜数据显示,DeepSeek成为全球增速最快AI应用,上线20天日活突破2000万。
2025-02-17 15:47:41
1019
原创 【VLMs篇】02:多模态模型评测
人工智能的浪潮席卷而来,多模态模型已成为 AI 领域的核心驱动力。它们如同拥有多重感官的智能体,能够理解和生成文本、图像、音频、视频等多元信息,在各个领域展现出前所未有的潜力。然而,与模型能力的飞速提升形成鲜明对比的是,多模态模型评测体系的相对滞后。
2025-01-24 17:38:21
1093
原创 【LLMs篇】01:大模型评测数据集和评测框架调研
上海人工智能实验室研发推出了 OpenCompass 司南开源评测体系。该体系是面向大语言模型、多模态大模型等各类模型的一站式评测平台。OpenCompass 的主要特点包括开源可复现全面的能力维度丰富的模型支持分布式高效评测多样化评测范式以及灵活化拓展。
2025-01-24 17:02:53
1756
原创 【深度学习篇】01:DeepSpeed 学习手册
DeepSpeed 主要是针对大型模型训练的,对于小型模型的训练,使用 DeepSpeed 可能不会带来明显的性能提升,甚至可能会降低训练速度。DeepSpeed 不仅仅是一个工具,它代表着深度学习模型训练的一种趋势:规模化、高效化、普惠化。DeepSpeed 的出现就是为了解决这些痛点,它通过各种优化技术,使得大规模模型训练成为可能,且更加高效、经济。虽然 DeepSpeed 做了很多通信优化,但分布式训练仍然会引入额外的通信开销。DeepSpeed 的配置选项非常多,对于初学者来说可能会感到复杂。
2025-01-22 12:07:38
1939
1
原创 【VLMs篇】01:Qwen2_VL微调实操喂饭教程
在普通的图片抽屉打开/关闭识别任务中,强如GPT-4o也只有50~60%的准确率,所以为了让我们的VLM模型能够准确的识别图中抽屉是打开还是关闭的,基于Qwen2_VL进行自定义数据集的微调。
2025-01-10 18:29:50
1652
2
原创 AIGC:【LLM(八)】——Baichuan2技术报告
大型语言模型(LLMs)已经在各种自然语言任务上展示了惊人的性能,只需少量自然语言指令的示例,就能减少对大量特征工程的需求。然而,大多数强大的LLM都是闭源的,或者在其能力上受到英语以外的其他语言的限制。在本文技术报告中,我们介绍了百川2号(Baichuan 2),这是一系列大规模的多语言模型,包含70亿和130亿个参数,从0开始训练,共使用2.6万亿个标记。在公共基准测试如MMLU、CMMLU、GSM8K和人为评估中,百川2号与类似大小的其他开源模型相匹配或超过它们。此外,百川2号在医学和法律等垂直领域表
2023-09-13 17:36:38
1651
原创 AIGC:【LLM(七)】——Baichuan2:真开源可商用的中文大模型
Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。其在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。
2023-09-11 16:08:41
1609
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人