深度学习机器-CSDN博客

原创 A2UI协议：一个Agent与UI界面之间的翻译器

在笔者看来，A2UI的意义不只是多了一种UI方案，而是在于它补齐了Agent从思考到执行的最后一环。对于Agent的开发者来说，可能不再需要去写各种业务相关的界面，而是可以专注于设计Agent能力边界。而Agent的终极形态，不再是聊天机器人，而是会自己搭界面的智能系统。A2UI，可能正是这个方向上非常关键的一步。

2026-01-20 09:54:02 771

DeepAgent将自己定位为，它本质上仍是工具调用循环，但集成了让智能体深度思考的核心能力。与传统框架不同，DeepAgent通过内置工具和能力，让开发者专注于业务逻辑，而非基础设施搭建。字典配置"description": "用于深度研究复杂问题","system_prompt": "你是一个专业的研究助手，擅长多步骤信息收集和综合","model": "openai:gpt-4o", # 可选：覆盖主智能体模型。

2025-12-22 10:05:29 1503

原创 RAG的另一种思路，基于文档树结构的推理型检索

与传统RAG相比，PageIndex的结构更加轻量。它不依赖复杂的向量数据库，而是以树状结构将文档组织为可解析的JSON文件，大幅降低了部署难度和成本。同时，它保留了文档的自然上下文，避免了人工分块造成的语义破碎，使得信息在检索时更连贯、更准确。PageIndex的核心优势在于推理型检索。通过让LLM沿树结构逐层推理，它能够找到真正相关的内容，而非仅仅语义相似的段落。每次检索的结果都附带完整的推理轨迹与页码引用，实现了过程的透明与可验证。然而，这种方法也并非没有代价。

2025-11-05 10:43:41 877

原创 Agent架构新方向？Claude Skills工作原理解析

是 Claude 提供的一种可扩展机制。每个 Skill 本质上是一个文件夹，包含元数据、说明文档以及可选的代码脚本和资源文件。这些技能仅在需要时才会被加载，使 Claude 在执行特定任务时具备专门的知识和流程。与传统一次性提示不同，Skills 通过渐进式披露的方式工作：Claude 会在会话开始时扫描所有技能的元数据，包括名称和简要描述，将其作为系统提示的一部分，而这部分代价极低，通常几十个 token。

2025-11-05 10:42:36 1779

原创如何选择合适的 AI Agent框架？OpenAI vs Claude vs LangGraph功能特点汇总

代表速度与协作追求稳定与深度LangGraph强在灵活与控制MCP则是连接一切的桥梁。

2025-10-28 11:16:57 1434

原创 AI Agent上下文工程设计指南｜附实用工具推荐

与其一味追求更大模型、更高参数，我们更应该注重如何让模型在有限的上下文中高效工作，这才是让 AI Agent真正走向实用的关键。大多数大型语言模型都有一个固定的上下文窗口，这意味着我们不能把所有信息都一股脑地塞进去，而必须像挑选和整理信息，只提供最核心、最关键的内容输入进去。在开源社区有不少工具，可以用于AI Agent上下文工程的辅助开发，它们能帮助我们更高效地构建和管理复杂的 AI Agent。写入上下文的目标是把关键信息保存在模型当前上下文窗口之外，以便日后检索使用，从而构建Agent的持久化知识。

2025-10-15 09:48:39 727

原创解密vLLM：基于nano-vllm源码剖析其推理加速之道

vLLM对于部署过大模型的人来说应该都不算陌生, 它能极大提升LLM的服务吞吐量，显著降低推理成本。vLLM成功的核心秘诀在于一项名为的技术及其配套的调度策略，对于不熟悉底层的人来说，这些概念可能非常晦涩难懂。幸好，DeeoSeek一位研究员开源了一个学习项目，，仅使用约1200行Python代码就实现了vLLM的核心功能，相比原生的vLLM来说更容易学习其核心思想。得益于轻量化的设计，在Qwen3的推理速度上比vLLM更快。

2025-10-15 09:48:10 1374

原创 VLM做文档OCR效果如何？我拿了几个常见模型进行对比

最近腾讯也开源了一个端到端视觉语言模型POINTS-Reader，在OCR任务上表现不错；至此，国内已经有不少专门针对OCR任务进行训练的开源VLM了。成绩打榜是一方面，实际用起来效果如何、好不好用可能又是另一方面。因此，本文将对比几款最近比较流行的VLM模型，通过不同的Prompt测试模型在PDF上的文本识别效果。

2025-09-30 10:00:58 1009

原创 Embedding Gemma，谷歌发布的小而精向量模型，仅需0.3B｜附RAG实战代码

EmbeddingGemma是Google发布的开源小规模多语言文本嵌入模型，旨在常见设备（如手机、笔记本、台式机）上高效运行，同时在 MTEB / MMTEB 等评测任务中保持与同类模型竞争的性能。其核心价值在于：支持离线运行、保护隐私、内存占用小、兼容多种推理框架，并提供灵活的输出维度。

2025-09-30 10:00:29 640

原创 UltraRAG：一个基于MCP协议，完全模块化的RAG框架

UltraRAG 的核心思想是将一个完整的 RAG流程拆解为一系列独立的、可互相通信的MCP Server，从而根据实际需要进行增删。以下是RAG中的一些核心模块：servers/retriever: 负责从知识库中检索相关文档。servers/reranker: 负责对检索到的文档进行重新排序，提升相关性。servers/generation: 负责基于处理后的信息生成最终答案。servers/corpus: 管理和索引知识语料。

2025-09-12 14:08:12 1156

原创 AI IDE如何构建高效代码索引？以一个MCP Server的开发过程进行阐述

AST是源代码语法结构的抽象树状表示。树中的每一个节点都代表代码中的一个构造。这能够将代码视为结构化实体，而非纯文本，从而精确地提取函数、类、方法等逻辑单元。import ast import inspect import graphviz from ast import NodeTransformer , fix_missing_locations , copy_location # 1.要处理的源代码 source_code = """

2025-09-12 14:07:39 1066

原创 aisuite：统一的大模型SDK，简化LLM开发流程

aisuite是一个轻量级的封装层，提供统一的接口，使开发者能够通过简单的字符串（例如openai:gpt-4o或anthropic:claude-3-5）在不同的LLM之间切换，而无需重写大量代码。aisuite作为一个开源的Python库，通过提供统一的接口和灵活的模型切换机制，简化了跨多个LLM提供商的集成过程。对于经常使用不同LLM的开发者来说，可以显著降低开发门槛，提高开发效率，是不容错过的选择。

2025-09-05 09:46:14 584

原创 LangExtract：基于LLM的信息抽取框架｜附项目解析与实战代码

在LLM能力越来越强的今天，大部分传统的NLP任务已经没有必要专门训练一个模型去解决了，很多都可以使用LLM来处理，甚至不需要进行微调，如使用开源的VLM做版本分析和文档提取已经超过很多传统的Pipeline方法了。也是利用LLM进行NER和KIE，只不过定义好了基本的框架，允许用户根据实际情况调整需要的Prompt和Example。

2025-09-03 10:06:12 1260

原创从Chat Completions到Responses，OpenAI Agent接口设计的演变

OpenAI在2025年推出了，在他们的官方宣传中，可以看到他们一直希望使用这个来替代。在这之前，已经成为了主流的通用接口规范，由于该接口每次请求都需要带上完整上下文，服务端无需管理会话状态，因此更易扩展、能高并发处理，使其在实际应用中取得了广泛的成功。现如今主推，并不仅仅是命名更新，而是为Agent、多模态、检索增强等应用场景进行的架构升级，以期成为另一个的标准制定者。

2025-09-03 10:05:53 1168

原创 Deep Research的架构演进：从Multi Agent到Supervisor-Researcher模式的技术实践

在AI Agent领域，应该算是最早的智能体应用，最初是由Google和OpenAI推出商用版本，后来也出现很多开源的项目。作为一名长期关注智能体架构设计的开发者，我最近深入研究了Langchain AI的这个项目，本文将从技术角度剖析这个项目的核心实现，并对比分析其历史版本与当前版本的架构差异。

2025-09-03 10:05:16 779

原创 Gemini CLI源码解析：深入工具系统的实现细节

开发自定义工具非常简单，只需继承BaseToolsuper(},},// 实现具体逻辑return {类型安全的接口设计：确保编译时和运行时的正确性灵活的扩展机制：支持内置工具、命令行发现和 MCP 服务器完善的安全机制：多层次的安全验证和用户确认优雅的执行流程：清晰的职责分离和错误处理对于AI 开发者以及所有对AI工具集成感兴趣的人来说，如何让复杂的系统保持简洁、安全和可扩展，Gemini CLI的工具系统都值得深入学习和借鉴。

2025-09-03 10:04:53 1144

原创 Gemini CLI源码解析：Agent与上下文管理实现细节

gemini-cli的设计思路不乏以下亮点：循环控制：多层安全机制确保系统稳定性，包括轮次限制和智能循环检测上下文管理：无数据库依赖的轻量级设计，结合智能压缩和结构化摘要，有效管理长对话历史与Manus类似，gemini-cli使用文件系统持久化长期记忆，因为文件系统就是天然的数据库，这种设计既保证了系统的可靠性和性能，又提供了良好的用户体验和扩展性。不过，略显遗憾的是目前gemini-cli使用的仍然是单一主控Agent来控制所有交互，响应速度上会比较差；而。

2025-09-03 10:04:38 1222

原创 GLM-4.5系列模型导读，综合能力更强的高性价比模型

在沉寂了半年之后，智谱推出了新一代开源模型GLM-4.5系列，采用MOE架构并使用混合推理模式。模型统一提升了在等多方面的能力，专为复杂智能体应用打造。由于官方的技术报告暂未发布，模型细节暂时无从得知，本文内容仅做导读，方便读者对该系列模型有个初步认识。

2025-09-03 10:03:41 1225

原创构建AI智能体的“上下文工程”方法论：Manus团队的实战经验

上下文工程已成为现代AI Agent系统不可或缺的一部分。无论模型本身如何进化，对上下文的建模、维护、裁剪与反馈机制的设计，将决定一个智能体是否稳健、高效、可扩展。本文只是对Manus技术团队分享的经验做了一些提取，感兴趣的读者请直接阅读官方的技术博客。

2025-09-03 10:03:04 466

原创 Kimi k2：最大开源Agentic LLM，Claude开源平替

Kimi K2的设计远超一个更大、更强的模型本身，Agentic-first设计体现真实执行力，不只是答题。传统LLM 偏向生成文本，而 Kimi K2将 agentic 能力（自动调用工具、执行多步任务）作为核心，从设计到评测均体现此路，简单聊天已无法衡量它的真正潜力。目前在上下文长度和Agent能力与顶尖的闭源模型存在一定差距，但是其后续影响应该会与Deepseek V3&R1类似，对整个开源AI生态起到积极作用。

2025-09-03 10:02:42 1554

原创 OCRFlux-3B：开源 OCR + LLM 模型的新标杆，支持跨页表格合并

OCRFlux-3B 是目前业内首个开源支持跨页结构智能合并的模型，不仅精度高，而且支持关键的结构化能力，并且能够在消费级硬件上运行，实用性极高。如果你正在做文档结构提取、知识库构建或企业文档数字化系统，不妨试试OCRFlux-3B，它可能会是目前最具性价比的选择之一。

2025-07-09 15:03:00 2183

原创 Prompt Engineering vs Context Engineering：我们与LLM交互方式的演变

Prompt Engineering是早期在ChatGPT时代的产物，这意味着用户需要在聊天框里输入一些奇怪的内容，然后观察模型的输出效果，接着不断调整输入的提示词，直到满意为止。不过写Prompt没有统一的范式，只有一些模糊的经验可供参考，因此还诞生出很多提示词工程师的岗位。Prompt Engineering 的本质，是一句话搞定模型：“你是一位 X 专家，请像 Z 一样完成任务 Y。”它依赖语言的表达技巧，通过优化提示的措辞、结构、语气甚至加入几个示例（few-shot）来引导模型生成想要的输出。

2025-07-05 11:44:36 861

原创 Nanonets-OCR：Qwen2.5VL-3B的微调模型更强大的文档解析能力|附效果实测

传统的Pipeline方式，只能检测出图片，无法处理图片的内容；相比之下，Nanonets-OCR模型，不只是看得见文字，更能从图片中提取出具体的语义信息，从而丰富文档的内容。在一些高级RAG场景中，可以借助VLM的多模态能力，对图片进行总结，在召回阶段对图片的语义信息进行向量检索，即可召回相关的图片，增加RAG的可信度。

2025-06-24 19:05:23 1465

原创 MonkeyOCR：用三元组范式重构文档解析与识别

Structure（文档结构检测）：识别各个语义块的位置和类型Recognition（内容识别）：识别各语义块的具体内容，如文字、表格、公式等Relation（关系建模）：预测块之间的逻辑阅读顺序针对端到端和模块化两种方式的缺点，MonkeyOCR取其两者精华，将文档解析抽象为三个子任务，提出结构-识别-关系三元组（Structure-Recognition-Relation）。这种设计融合了Pipeline的可解释性与End-to-End的统一优势。

2025-06-20 12:51:19 1275 1

原创 Mem0：新一代AI Agent的持久化记忆体系

Mem0 作为一个易用、灵活且功能强大的记忆增强框架，极大地扩展了大语言模型的上下文记忆能力。无论是构建常见的多轮对话机器人、智能搜索系统还是个性化推荐服务，Mem0 都是一个非常值得尝试的工具。

2025-06-16 19:26:57 2232

原创 AI Agent的记忆体系与架构设计

在实际应用中，需要考虑效率和准确率、以及性价比来选择最合适的方案。对于简单的聊天机器人场景，可以直接使用滑动窗口维护上下文，利用LLM的长上下文能力保持记忆；如果需要Agent能在多个会话历史中保持记忆，则需要借助数据库进行持久化；对于超长期的记忆，可以利用LLM进行关键信息的抽取并进行结构化存储。

2025-06-12 16:31:46 1388

原创 SmolDocling-256M：极小参数量的视觉语言模型|端到端文档解析方案的另一种思路

传统的一站式文档解析工具，包含布局分析、OCR和表格识别等，往往需要结合多个独立的模型，同时根据处理任务的不同调用不同的模型，增加了处理流程的复杂度，并且难以泛化到不同的文档类型。大型视觉语言模型（LVLMs）虽然提供端到端的解决方案，但是计算成本高，如Qwen2.5VL系列模型，至少7B以上的模型才有不错的效果，这对于文档解析这种轻量型的任务来说计算负担太重了。

2025-05-29 19:45:40 905 1

原创新一代Python管理UV完全使用指南｜附实际体验与效果对比

uv包含以下命令，前几个是比较常用的。命令描述run运行命令或脚本init创建一个新项目add向项目中添加依赖项remove从项目中移除依赖项sync更新项目的环境lock更新项目的锁定文件export将项目的锁定文件导出为其他格式tree显示项目的依赖树tool运行和安装由 Python 包提供的命令python管理 Python 版本和安装pip使用兼容 pip 的接口管理 Python 包venv创建虚拟环境build将 Python 包构建为源代码分发包和 wheelspublish。

2025-05-29 19:45:14 2799

原创一文看懂现役最强开源模型Qwen3

感觉本次Qwen3最大的亮点就是模型原生支持思考模式和非思考模式，可以根据不同的任务需要选择不同的模式，无需跟往常一样同时部署推理模型和对话模型，一个模型即可搞定所有工作。思考模式：在这种模式下，模型会逐步推理，适合需要深入思考的复杂问题。非思考模式：在此模式中，模型提供快速、近乎即时的响应，适用简单问题。

2025-05-29 19:44:35 1279

原创告别RAG上下文丢失：Late Chunking 与 Contextual Retrieval 深度对比解析

Late Chunking和Contextual Retrieval都为传统分块方法中固有的上下文丢失问题提供了各自的解决方案：● Late Chunking 采用“先嵌入后分块”的方式，在多个分块之间保留语义信息，利用的是模型结构的特点，不会造成额外的消耗；● Contextual Retrieval 则基于LLM为每个分块添加文档范围的上下文信息进行增强，会造成大量的token损耗，同时效果高度依赖于所使用的LLM。

2025-05-29 19:43:14 1219

原创 Ollama-OCR：基于Ollama多模态大模型的端到端文档解析和处理

Ollama-OCR 提供多种输出格式以适应不同场景：● Markdown：保留结构化格式，包括标题和列表● 纯文本：提取干净、无格式的文本● JSON：便于集成的结构化数据输出● 结构化格式：提取并组织表格和层级内容● 键值对：适合处理表单、发票和收据● 表格：高效提取所有表格数据。

2025-05-24 21:39:55 993

原创 PostgREST：无需后端快速构建RESTful API服务

PostgREST 是一种无服务器解决方案，允许开发者将 PostgreSQL 数据库直接暴露为 RESTful API，无需编写后端代码。它自动将数据库的表、视图、函数映射为 API 接口，并内置 JWT 解析功能，支持角色权限管理。通过简单的配置和安装，开发者可以快速启动服务，并使用 curl 进行数据查询、新增、更新和删除操作。PostgREST 特别适合希望减少后端开发负担、专注于核心功能开发的团队，提供了一种高效、简洁的 API 构建方式。

2025-05-14 19:43:28 854

原创 MCP原理解析与效果实测|附实用MCP推荐

前面提到的Cursor相当于MCP架构中的Client（实际上是包含了Client的host），因此对于普通用户来说，只需要关注自身需要什么样的功能（Server），去找到相应的功能（Server）安装即可。对于开发者而言，如果需要让自己的程序能够使用已有的MCP Server，则需要针对自己的程序进行改造，使其符合MCP规范才行。目前官方也分别提供了Python 和 Js的SDK，可以很方便进行开发。

2025-03-30 16:53:08 793

原创 PandaAI：使用自然语言进行数据分析的利器

PandaAI是一个典型的Text2SQL智能体，核心原理是利用大模型将自然语言查询转换为可执行的代码，通过封装的.chat方法，将问题、表头和 5-10 行数据传递给大模型，然后由模型生成最相关的代码（Python 或 SQL），同时生成的代码在本地执行，并把产生的结果按照最符合问题的形式进行返回。基本上所有的Text2SQL都大同小异，而PandaAI额外支持了一些数据预处理的方法和自动选择特定格式进行输出，算是一些不错的亮点。

2025-03-30 16:48:33 2063

原创 Docling：统一的多文档解析框架支持多种文档类型的处理与转换

对于每种文档格式，Docling会自动识别应该调用哪一种Pipeline进行解析处理，并且解析后可以导出不同的数据格式，如Markdown、字典等，甚至还能进一步进行分块处理。

2025-03-30 16:44:04 1495 1

原创图解大模型注意力计算过程以及KV Cache原理

首先，我们看看大模型生成过程中每一步是怎么进行的。<Begin>是一个起始符，用于标记句子的开头。当模型的输入只有<Begin>的时候，模型输出概率最大的词I，表示在模型看来，以I作为句子的实际开头是合理的；当模型的输入变成<Begin>和I的时候，模型预测出下一个词大概率是have。依此类推，整个生成过程就是把模型预测出的词拼接到输入的句子中去，组成新的输入句子后，再让模型预测这个新输入句子的下一个词汇是什么。

2025-03-13 22:28:22 1218

原创让浏览器AI起来：基于大模型Agent的浏览器自动化工具

agent默认的输出结果是文本，同时也支持自定义输出格式，实现结构化输出。if result:')')')')else:整个项目实际测试下来实用性不是很强，甚至连完成简单的谷歌搜索都得好一会儿，从后端的日志看应该是模型一些思考过程太多、步骤太冗余导致的。不过页面的html结构识别还比较完善，这对于精确触发一些页面事件应该是个好事。目前看来比较实用的agent就是这类项目，利用推理模型的推理能力+联网搜索整合出完善的研究报告。

2025-02-21 22:53:55 1791 1

原创推理模型时代：大语言模型如何从对话走向深度思考？

对于推理模型，Promot工程同样并未失效，相反，Prompt工程中很多原则依旧不可忽视，如：清晰描述清楚需求。但是，由于推理模型自身的运行机制，需要提供比对话模型更加详细的上下文信息，同时明确表达想要的结果不要过多指导模型的实现过程。目前推理模型还处于发展初期，相信今年会有更多杰出和激动人心的研究成果发布。

2025-02-21 22:52:35 1496

原创一文了解大模型性能评测数据、指标以及框架

笔者最近在对比浏览各种大模型性能时，发现不少机构发布的大模型成绩不是那么详细。排行榜仅存在数据集和分数，对于大多数人来说，可能就看个分数高低就忽略了。因此，本文整理了一些常见的评测数据集和指标说明，希望对于普通读者有所帮助。

2025-02-21 22:45:56 2265

原创 AI Agent Service Toolkit：一站式大模型智能体开发套件

在src/agents下新增自定义的agent模块。将新增的agent导入src/agents/agents.py。该项目默认提供了4种agent，其中的chatbot只能做简单的对话，因此笔者打算将其改造为智能问答阅读助手，可以用于解读上传的文件。只需修改src/streamlit_app.py。

2025-02-21 22:41:31 1181

空空如也

空空如也