- 博客(290)
- 资源 (1)
- 收藏
- 关注
原创 【Agents篇】01:AI Agent从概念到实践的全面解析
本文系统性地介绍了AI Agent(人工智能代理)的发展现状与核心技术架构。文章首先阐述了AI Agent的概念定义,指出其相比传统LLM实现了从"知道如何做"到"能够去做"的质变飞跃,具备自主性、反应性、主动性和社交能力等核心特征。然后详细剖析了AI Agent的五层核心架构:大脑(LLM作为控制器)、感知模块(多模态信息接收)、规划模块(任务分解与决策)、记忆模块(经验存储)和行动模块(任务执行)。文章还介绍了主流Agent框架(如OpenClaw、AutoGen
2026-02-02 14:32:07
722
原创 视觉语言模型 (VLMs):跨模态智能的探索
近年来,人工智能 (AI) 领域经历了爆炸式发展,深度学习作为核心驱动力,在计算机视觉 (CV) 和自然语言处理 (NLP) 领域均取得了里程碑式的突破!🎉 为了进一步拓展 AI 的能力边界,研究人员开始积极探索如何融合视觉和语言两大模态,构建能够理解、生成并跨越图像和文本的模型。视觉语言模型 (Vision-Language Models, VLMs) 正是在这一背景下应运而生,它致力于弥合视觉与语言之间的语义鸿沟,赋予机器如同人类一般的多模态感知和认知能力。🧠✨。
2025-01-23 16:34:22
2638
原创 LLMs的星辰大海:大语言模型的前世今生
大型语言模型(LLM)的崛起,犹如一场科技的奇点,正以惊人的速度重塑着我们与信息、与世界的互动模式。它们不再是冰冷的机器,而是具备理解、生成、甚至创造能力的智能体,展现出前所未有的潜力。然而,在这令人兴奋的机遇背后,也隐藏着复杂的技术挑战和深刻的伦理思考。本文将基于一系列精选参考文献[1-9],从概念、技术、应用、挑战等多个维度,以抽丝剥茧的方式深入剖析LLM,共同揭开LLM的神秘面纱。
2025-01-20 18:34:59
1669
原创 Transformer:深度学习的变革力量
而 Transformer 的横空出世,以其独特的注意力机制和并行计算能力,彻底改变了序列建模的范式,为深度学习带来了革命性的变革。对于输入序列中的每个位置,Self-Attention 计算该位置与其他所有位置的关联程度,并根据关联程度加权求和,得到该位置的新的表示。Transformer 的出现是深度学习领域的一次革命性突破,它以独特的注意力机制和并行计算能力,彻底改变了序列建模的范式。RNN 通过循环结构处理序列数据,将当前时刻的输入和上一时刻的隐藏状态相结合,逐步提取序列的特征。
2025-01-09 10:45:19
1610
原创 【Agents篇】20:Agent 的未来——挑战与展望
本文探讨了AI Agent发展面临的核心挑战与未来方向,重点分析了安全对齐、可解释性和伦理框架三大关键问题。文章系统梳理了AI对齐的技术方法(强化学习、逆向强化学习等)和安全架构设计原则,深入讨论了可解释AI的技术路径(LIME、SHAP等解释工具)以及多维度伦理评估框架(道义论、功利主义等视角)。最后,文章展望了通向AGI的可能路径,并提出了构建负责任AI的实践指南,强调技术发展必须与伦理治理并重,才能实现AI与人类社会的良性互动。
2026-02-04 10:30:58
623
原创 【Agents篇】19:具身智能——从虚拟到现实世界
本文探讨了具身智能(Embodied AI)这一前沿领域,旨在让AI系统具备物理形态和行动能力。文章系统性地介绍了具身智能的核心概念、技术架构与实现方法,包括感知-决策-执行框架、SayCan语言模型与机器人结合、PaLM-E多模态模型以及RT-2机器人Transformer等关键技术。同时深入分析了机器人控制、自主导航、仿真环境等实践环节,并展望了群体协作、世界模型等前沿方向。通过理论与实践相结合的方式,全面展现了如何让AI从虚拟世界走向物理现实,赋予机器人真正的智能行动能力。
2026-02-04 10:30:28
979
原创 【Agents篇】18:Agent 社会——行为、人格与社会模拟
本文系统探讨了AI Agent社会模拟的前沿研究,聚焦于如何让多个智能体在虚拟环境中涌现类人社会行为。文章从斯坦福小镇实验出发,介绍了生成式智能体的核心架构设计,包括记忆流、反思机制和行为规划系统。同时深入探讨了可扩展的社会模拟框架AgentSims,以及认知建模、情感模拟、人格特质等关键技术。研究揭示了AI如何通过模块化心智架构模拟人类社会复杂动态,包括群体行为、信息传播和社会网络形成。最后提供了构建迷你Agent社会的实战指南,展望了该技术在科学研究、工程应用和社会影响评估中的广阔前景。
2026-02-04 10:30:04
1015
原创 【Agents篇】17:Agent 评估——基准测试与能力评测
本文深入探讨AI Agent评估体系,系统解析如何科学评测Agent的能力边界与实际表现。文章从评估必要性出发,分析核心挑战如环境复杂性和任务模糊性,详细介绍主流Benchmark(如AgentBench、ToolBench)的设计理念,并构建包含任务完成度、过程质量等维度的评估指标体系。同时提供Benchmark设计方法论和实战指南,帮助开发者构建自定义评估系统,最后展望Agent评估的未来发展趋势。
2026-02-04 10:29:45
927
原创 【Agents篇】15:实战——构建你的第一个 AI Agent
本文是AI Agent系列的第15篇,旨在指导开发者从零构建一个完整的AI Agent系统。文章首先分析了现有框架(如LangChain、AutoGPT等)的局限性,强调了自主构建Agent的价值——深入理解原理、完全可控、按需定制和学习成长。随后回顾了AI Agent的核心概念,包括感知、思考、行动和记忆四个关键模块,并对比了Agent与ChatBot的区别。重点介绍了ReAct范式的优势及其循环工作流程。在系统架构部分,文章提出了模块化设计思路,将系统分为用户接口、API服务和Web界面等组件。
2026-02-04 10:28:21
830
原创 【Agents篇】14:CrewAI——基于角色的团队协作
CrewAI框架解析:多智能体协作系统的构建方法 摘要: 本文深入探讨了CrewAI框架的设计理念与核心架构,这是一种专为多智能体协作设计的Python框架。CrewAI采用角色扮演(Role-Playing)和事件驱动(Flows)的设计哲学,通过Agent(智能体)、Task(任务)、Crew(团队)和Process(流程)四大核心组件实现复杂任务的分解与协作。文章详细解析了框架的层次化架构,包括底层的状态管理、中层的团队协作以及顶层的事件驱动流程控制,并提供了从角色定义到工作流编排的完整实践指南。
2026-02-04 10:28:01
761
原创 【Agents篇】13:MetaGPT——用软件公司模式开发软件
MetaGPT是一个基于标准化操作流程(SOP)的多智能体协作框架,通过模拟软件公司角色分工实现高效软件开发。其核心公式Code = SOP(Team)将人类团队的流程应用于LLM智能体,解决了传统多智能体系统的逻辑不一致问题。MetaGPT包含角色系统、动作机制、SOP流程和文档生成等组件,支持从需求分析到代码生成的完整软件开发流程。相比单一LLM,MetaGPT通过结构化协作显著提升了输出质量和可复现性,已在ICLR 2024发表并获得行业认可。
2026-02-04 10:27:33
724
原创 【Agents篇】12:AutoGen 多智能体对话框架 —— 构建下一代 AI Agent 协作系统
本文深度解析微软开源的AutoGen多智能体对话框架,从架构设计到实战开发。文章首先探讨了多智能体协作的必要性,指出单一Agent在复杂任务中的局限性,而多智能体系统能通过专业分工、相互纠错和并行处理提升效率。随后详细介绍了AutoGen的核心理念和分层架构,包括对话驱动、模块化设计和人机协同三大原则。框架提供了智能体开发、消息机制、群聊模式、工具集成等核心功能,并配套AutoGen Studio可视化开发工具。最后通过构建智能研究助手案例,展示了AutoGen在多智能体协作中的实际应用价值。
2026-02-03 17:18:41
763
原创 【Agents篇】11:LangChain & LangGraph 深度解析
本文系统介绍了LangChain和LangGraph两大框架在AI Agent开发中的应用。LangChain通过模块化设计(Models、Messages、Tools等核心组件)和LCEL表达式语言实现灵活组合,解决多模型集成、工具调用等痛点。LangGraph作为编排引擎,通过状态机机制增强复杂工作流处理能力,支持动态路由、人工干预等高级特性。文章详细解析了从组件到状态机的完整开发框架,包含智能客服、数据分析等实战案例,并对比了二者的适用场景,为开发者提供从原型到生产的全流程解决方案。
2026-02-03 17:14:22
853
原创 【Agents篇】10:人机协作——从指导者到平等伙伴
本文探讨了人机协作(Human-Agent Collaboration)的理论与实践,重点分析了Human-in-the-Loop(HITL)系统的设计理念与应用场景。文章从工具到伙伴的范式转变出发,系统阐述了HITL在教育、医疗和创意领域的实践案例,包括AI学习伙伴、医疗诊断辅助和创意协作等应用。同时深入探讨了人机协作中的信任机制、控制权分配等核心问题,提出了协作层级架构和自适应机制的设计方案。最后展望了从指导者到平等伙伴的关系演进,并提供了构建自适应人机协作系统的实战指导。
2026-02-03 17:09:47
971
原创 【Agents篇】09:多智能体协作——分工与涌现
多智能体协作:从理论到实践 本文探讨了多智能体系统(MAS)的协作模式与涌现行为。当单个智能体能力达到瓶颈时,多智能体协作可产生1+1>2的效果。文章系统介绍了多智能体理论基础,并重点分析了三大前沿框架:CAMEL(角色扮演驱动协作)、ChatDev(虚拟软件公司开发)和AgentVerse(动态组队系统)。深入剖析了中心化/去中心化等协作模式、对抗博弈机制,以及智能体间通信协议设计。通过代码实战展示了如何构建多智能体系统,最后探讨了当前挑战与未来研究方向。
2026-02-03 17:01:48
834
原创 【Agents篇】08:单智能体应用——任务、创新与生命周期
AI单智能体:从任务执行到创新应用 本文系统探讨了单智能体(Single Agent)的技术架构与应用实践。文章首先对比了单/多智能体差异,剖析了感知-规划-执行的闭环架构。随后重点分析了四大典型应用场景:代码助手(GitHub Copilot/Cursor)、研究助手、游戏AI(Voyager)和数据解释器,详细解读其技术原理与实现方案。通过具体案例展示了任务分解、工具调用、自我修正等核心机制,并提供了构建简易代码助手和研究助手的实践指南。
2026-02-03 16:49:14
683
原创 【Agents篇】07:Agent 的行动模块——工具使用与具身执行
本文系统性地探讨了Agent行动模块的设计与实现,揭示其作为智能代理从"思考"到"行动"的关键转化机制。文章首先阐述了行动模块作为Agent"手脚"的核心地位,详细解析了工具调用、API交互、代码执行、具身控制等核心能力及其层次关系。随后深入技术实现层面,涵盖Toolformer模型、API调用机制、代码执行流程、安全沙箱等关键技术,并探讨了具身智能的前沿进展。
2026-02-03 16:43:09
941
原创 【Agents篇】06:Agent 的感知模块——多模态输入处理
摘要:本文深入探讨AI Agent的多模态感知技术,系统解析视觉、听觉模块的实现原理及融合策略。文章首先分析多模态感知的必要性,指出其能提升信息完整性、交互自然度和场景理解能力。核心内容涵盖:视觉模块(BLIP-2、Flamingo等模型)、音频模块(Whisper等语音识别技术)、多模态融合方法(早期/晚期融合、交叉注意力等),以及视觉语言模型(VLM)的架构对比。最后提供工程实现方案和性能优化建议,为构建具备人类式感知能力的智能体提供完整技术路线。
2026-02-03 14:34:35
791
原创 【Agents篇】05:Agent 的规划能力——任务分解与动态调整
本文深入探讨AI Agent的核心能力——规划(Planning),系统解析主流规划框架及其应用场景。首先阐明规划能力在AI Agent能力金字塔中的关键地位,指出其作为连接基础语言理解与自主决策的重要桥梁。随后详细分析四种典型规划框架:ReAct(推理与行动交织)、Plan-and-Execute(先规划后执行)、HuggingGPT(多模型协作)和LLM+P(结合经典规划器),对比各自的架构特点、工作流程和适用场景。
2026-02-03 14:28:56
752
原创 【Agents篇】04:Agent 的推理能力——思维链与自我反思
本文深入探讨AI Agent的核心推理能力,系统梳理了从Chain-of-Thought到ReAct等关键技术。文章首先指出传统LLM在复杂推理任务中的局限性,随后详细解析了CoT(思维链)、ToT(思维树)、Self-Refine(自我精炼)、Reflexion(反思学习)和ReAct(推理行动协同)五大核心方法的技术原理与实现方案。通过对比不同技术的演进路径与应用场景,为构建高效AI Agent提供了全面的架构设计与实践指南,涵盖了从基础概念到生产级实现的全流程解决方案。
2026-02-03 14:11:30
894
原创 【Agents篇】03:Agent 的记忆系统——从短期到长期记忆的实现
或许有一天,Agent 的记忆会像人类一样丰富——不仅记住事实,还记住情感、气味、画面。它们会在梦中整理记忆,会因为某首歌想起某个人,会在岁月中成长和改变。那时的 Agent,或许真的可以称之为"数字生命"。
2026-02-03 11:16:32
776
原创 【Agents篇】02:Agent 的大脑——LLM 如何成为智能核心
LLM 是 Agent 的核心:提供语言理解、知识存储、推理规划等关键能力六大核心能力🗣️ 自然语言交互📚 知识存储与利用💾 记忆机制🤔 推理能力📋 规划能力🔄 泛化能力关键技术思维链(CoT)提升推理RAG 增强知识MemGPT 管理记忆ReAct 融合推理与行动Reflexion 实现自我改进。
2026-02-02 17:55:10
763
原创 【VLNs篇】22:ReMEmbR:构建并推理用于机器人导航的长时空记忆
本文提出了 **ReMEmbR**(具身机器人检索增强记忆),旨在解决机器人在长时间运行中难以利用历史数据进行推理和导航的问题。现有的方法受限于上下文长度,无法处理数小时的视频历史。ReMEmbR 将任务分为两个阶段:**记忆构建**和**查询**。在构建阶段,系统利用视觉语言模型(VILA)将视频流生成字幕,并结合位置和时间信息存入向量数据库。在查询阶段,基于 LLM 的智能体通过文本、空间和时间检索工具,从数据库中提取相关片段来回答用户问题或生成导航目标。
2026-01-26 17:31:08
615
原创 【VLNs篇】21:AstraNav-Memory:面向长时记忆的上下文压缩
本文提出了 AstraNav-Memory,一种用于终身具身导航的以图像为中心的记忆框架。针对现有方法在长时记忆存储上的瓶颈,作者设计了一个基于 DINOv3 和 PixelUnshuffle 的高效视觉上下文压缩模块,将每帧图像从 598 个 Token 压缩至约 30 个。该模块与 Qwen2.5-VL 导航策略端到端耦合,在保留关键空间语义信息的同时,将有效上下文容量从几十帧扩展至数百帧。在 GOAT-Bench 和 HM3D-OVON 上的实验表明,该方法显著提升了导航成功率和探索效率
2026-01-07 14:46:27
710
原创 【VLNs篇】20:LoGoPlanner:具有度量感知视觉几何的定位落地导航策略
本文介绍了 **LoGoPlanner**,一种新型的端到端机器人导航框架,旨在解决现有方法对显式定位模块和严格传感器标定的依赖问题。传统导航常受模块间级联误差影响,而现有端到端方法虽有改善,却仍需外部精确定位,限制了跨平台泛化。LoGoPlanner 通过三大创新突破此局限:(1)微调视觉几何模型以具备绝对度量尺度,实现隐式状态估计;(2)利用历史观测重建稠密环境几何,增强避障能力;(3)采用基于查询的策略,将隐式几何与规划深度融合。
2026-01-06 16:33:43
1123
原创 【VLMs篇】14: BEVFormer v2: 通过透视监督使现代图像主干网络适应鸟瞰图识别
本文提出了 BEVFormer v2,一种新型的两阶段鸟瞰图(BEV)检测器,旨在解决现代图像主干网络(如 ConvNeXt、InternImage)难以适应 BEV 检测任务的问题。传统 BEV 模型常依赖于特定深度预训练的 VoVNet,而现代主干网络直接应用效果不佳。作者引入了“透视监督”,即在主干网络上增加一个辅助的透视 3D 检测头,利用密集的图像级监督引导主干网络学习 3D 知识。
2025-12-30 17:54:59
993
原创 【VLMs篇】13:BEVFormer: 基于时空Transformer从多视角图像学习鸟瞰图表示
本文提出了 **BEVFormer**,一种用于自动驾驶感知的创新 Transformer 框架。针对传统方法在 2D 到 3D 转换中的不适定问题及时间信息利用不足的痛点,BEVFormer通过**网格状 BEV 查询**,利用**空间交叉注意力**从多视角图像中提取空间特征,并通过**时序自注意力**从历史 BEV 中循环融合时间信息。这种设计统一了时空特征,无需依赖深度信息即可生成强大的鸟瞰图(BEV)表示。
2025-12-30 17:06:38
908
原创 【VLMs篇】12:Cambrian-S:迈向视频中的空间超感知
当前的视频多模态大模型(MLLMs)大多局限于语言理解和语义感知,缺乏真正的空间认知和对连续世界的建模能力。为此,本文提出了“空间超感知(Spatial Supersensing)”的概念,涵盖从流式事件认知到预测性世界建模的层级。作者推出了 VSI-SUPER 基准,包含长时程回忆(VSR)和持续计数(VSC)任务,以测试模型在无界视频流中的空间推理能力。
2025-12-29 17:50:23
792
原创 【VLMs篇】11:用于端到端目标检测的可变形Transformers(Deformable DETR)
DETR 作为端到端目标检测器,虽消除了手工设计组件,但面临收敛慢(500 epochs)和小目标检测差的问题,主要源于 Transformer 全局注意力的计算复杂度。本文提出 Deformable DETR,引入可变形注意力模块,仅关注参考点周围的稀疏关键采样点,而非全图像素。该方法结合了稀疏空间采样和多尺度特征融合,显著降低了计算复杂度。实验表明,Deformable DETR 在 COCO 基准上仅需 50 个 epoch(10倍加速)即可超越 DETR,且大幅提升了小目标检测精度。
2025-12-25 14:07:02
873
原创 【VLMs篇】10:使用Transformer的端到端目标检测(DETR)
本文提出了DETR(DEtection TRansformer),一种将目标检测视为直接集合预测问题的新范式。传统的检测方法依赖于非极大值抑制(NMS)和锚框(Anchor)等手工设计组件,而DETR通过结合Transformer架构和二分图匹配损失(Bipartite Matching Loss),实现了端到端的检测。该模型利用Transformer的全局注意力机制处理图像特征,并使用一组固定的可学习对象查询(Object Queries)并行输出预测结果。
2025-12-24 19:44:01
962
原创 【VLMs篇】09:一张图片等价于 16x16 个单词:用于大规模图像识别的 Transformers(ViT)
本文提出了一种名为 Vision Transformer (ViT) 的模型,挑战了卷积神经网络 (CNN) 在计算机视觉领域的主导地位。ViT 尽可能少地修改标准 Transformer 架构并直接应用于图像。其核心方法是将图像分割成固定大小的块(patches),将其线性嵌入后作为序列输入到 Transformer 中。研究发现,虽然 ViT 缺乏 CNN 固有的归纳偏置(如平移等变性和局部性),导致其在小数据集上表现不佳,但大规模数据集(如 JFT-300M)的预训练可以克服这一限制。
2025-12-24 16:19:46
1020
原创 【VLNs篇】19:DualVLN(InternNav)模型结构和流程图及生成代码
DualVLN(InternNav)模型结构和流程图及生成代码
2025-12-23 16:47:00
494
1
原创 【VLNs篇】18:慢思考,快行动:用于泛化视觉语言导航的双系统基础模型DualVLN
本文提出了 DualVLN,一种用于视觉语言导航(VLN)的双系统基础模型,旨在解决现有端到端模型动作破碎、延迟高且难以避障的问题。DualVLN 模仿人类认知,由两个解耦系统组成:系统 2(慢系统)基于 7B 大模型进行全局规划,通过图像像素接地预测中期目标;系统 1(快系统)*是轻量级扩散策略,利用系统 2 的显式像素目标和隐式潜在查询,结合高频视觉输入生成平滑轨迹。这种设计既保留了 VLM 的强推理与泛化能力,又实现了 30Hz 的实时敏捷控制。
2025-12-18 14:42:27
839
原创 【NLUs篇】02:JPIS:一种结合槽位到意图注意力机制的基于画像的意图检测与槽位填充联合模型
本文提出了一种名为JPIS的联合模型,旨在解决自然语言处理中因缺乏上下文信息而导致的意图检测与槽位填充歧义问题。传统的模型往往忽略用户画像(如个人偏好)和环境上下文(如地理位置),导致在处理如“订去河内的票”这类模糊指令时表现不佳。JPIS不仅在编码器中有效整合了这些辅助画像信息,还创新性地引入了“槽位到意图”的注意力机制,利用槽位特征辅助意图识别。在中文基准数据集ProSLU上的实验显示,JPIS在整体准确率上显著优于现有模型,结合预训练语言模型后达到了86.67%的新SOTA水平。
2025-12-03 16:21:45
803
原创 【NLUs篇】01:JointBERT:用于联合意图分类和槽位填充的 BERT 模型
本文针对自然语言理解(NLU)任务中因标注数据匮乏而导致的泛化能力差的问题,提出了一种基于 BERT 的联合意图分类和槽位填充模型。传统的 NLU 方法(如 RNN、LSTM)在处理罕见词或小样本数据时往往表现不佳。作者利用 BERT 强大的预训练语言表示能力,通过简单的微调,在单一模型中同时完成意图识别和槽位填充任务。
2025-12-03 15:22:56
1432
原创 【VLNs篇】17:NaVid:基于视频的VLM规划视觉语言导航的下一步
本文提出了 NaVid,一种基于视频的大型视觉语言模型(VLM),旨在解决视觉语言导航(VLN)中的泛化难题。不同于依赖地图、深度图或里程计的传统方法,NaVid 仅利用单目 RGB 摄像头的实时视频流和自然语言指令,通过端到端的方式直接规划机器人的低级动作(如移动距离、旋转角度)。
2025-11-24 17:04:48
1256
原创 【VLNs篇】16:JanusVLN 训练 vs 评估中视觉观察数据使用详解
摘要: 本文分析了Qwen-VL模型的训练与评估阶段在数据处理和帧采样策略上的差异。训练阶段使用离线预收集的轨迹数据,采用基于视频长度的动态帧采样(4-8帧),并固定以第一帧作为参考帧。评估阶段则处理实时仿真环境的动态输入(1-9帧),使用增量式KV Cache处理机制。训练时批量处理所有帧,评估时采用StartRecentKVCache策略(56帧缓存)。两者在数据来源、帧采样方法、参考帧处理和KV Cache使用等方面存在显著差异,这些设计差异反映了离线训练与在线推理的不同需求。
2025-11-17 14:41:03
693
原创 【VLAs篇】09:不要蒙蔽你的VLA:为OOD泛化对齐视觉表示
本文系统研究了视觉-语言-动作(VLA)模型在机器人任务微调过程中普遍存在的视觉表示退化问题。研究发现,标准的微调会导致模型“遗忘”其从预训练中继承的通用视觉知识,造成表示坍塌和注意力沉没,从而损害其在分布外(OOD)场景中的泛化能力。为解决此问题,论文提出了一种轻量级的“视觉表示对齐”方法,通过一个正则化损失,将VLA的内部视觉特征与一个固定的、强大的“视觉教师”模型的特征对齐。该方法有效保留了模型的语义基础,在不增加额外计算开销的情况下,显著提升了VLA模型在多样化、未知场景下的泛化性能。
2025-11-11 17:51:21
1091
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅