宇擎智脑科技-CSDN博客

原创基于 SAM3 + FastAPI 搭建智能图像标注工具实战

本文介绍了一个基于Meta SAM3模型的Web端图像标注工具开发过程。该工具通过文本驱动分割、点击交互分割等功能显著提升标注效率，支持YOLO和COCO格式导出。采用React+FastAPI技术栈，后端实现SAM3模型的懒加载、图像特征缓存和三种分割模式（文本、点击、框选），并生成掩码可视化效果。工具采用三栏布局设计，解决了传统标注工具效率低下的问题，将标注流程从"逐个描边"优化为"一键标注"。

2026-04-10 09:52:40 373

原创 YOLO 训练数据格式完全指南：从目录结构到标签文件逐行解读

YOLO系列模型采用简洁的纯文本标注格式。标准目录结构包含train/val/test三级，每级下需有images和labels两个平行目录，图片与标签文件同名对应。标签格式分为目标检测（class_id cx cy w h）和实例分割（class_id x1 y1 x2 y2...）两种，均使用归一化坐标。数据集配置文件data.yaml需指定路径和类别信息。转换时注意像素坐标与归一化坐标的换算，中心点坐标需除以图片宽高。该格式设计简洁高效，便于模型训练和部署。

2026-04-10 09:28:29 363

原创 COCO JSON 格式完全指南：从数据结构到实战应用

COCO JSON是计算机视觉领域通用的标注数据格式，包含图片信息、类别定义和标注数据三部分核心内容。其结构清晰，支持目标检测、实例分割等任务，主要包含五个顶层字段：info（元数据）、licenses（许可证）、images（图片信息）、annotations（标注数据）和categories（类别定义）。标注数据中bbox字段采用[x,y,width,height]格式表示边界框，segmentation支持多边形顶点坐标或RLE编码两种方式表示目标轮廓。该格式因其完整性和通用性，被主流深度学习框架广泛

2026-04-10 09:27:19 456

原创 SAM3 实战上手指南：从安装到图像/视频分割全流程

本文介绍了Meta SAM 3（Segment Anything with Concepts）图像和视频分割模型的完整使用流程。主要内容包括：1）SAM 3的核心特性，如开放词汇分割、统一图像视频架构等；2）环境搭建步骤，包括硬件要求、安装方法和模型权重获取方式；3）图像分割实战，涵盖基本流程、本地权重加载和结果可视化；4）视频分割实战，详细说明会话式API的使用方法，包括文本prompt添加和交互式点prompt操作。文章提供了代码示例和术语解释，帮助开发者快速上手SAM 3的应用开发。

2026-04-09 09:13:40 381

原创 SAM3 Agent 架构深度解析：当分割模型学会“思考“

本文深入解析了Meta开源项目SAM3（Segment Anything with Concepts）的Agent系统设计，该系统通过将多模态大语言模型(MLLM)与SAM3分割模型结合，构建了具备迭代推理能力的视觉概念定位系统。文章详细介绍了其四大工具(分割、审查、选择和报告)的功能与交互机制，重点分析了消息历史管理的精细控制策略和系统提示词工程的设计要点。该系统采用关注点分离架构，通过防御性编程和可插拔MLLM后端设计，实现了高效可靠的开放词汇图像分割能力。

2026-04-09 09:12:51 457

原创 Claude Code 源码分析（八）：成本控制与速率限制 —— AI 产品的资源治理实践

本文分析了Claude Code 2.1.88版本中AI产品成本控制的完整方案。该系统实现了多层次的资源治理：按模型细粒度追踪token用量和费用，支持会话级持久化；提供API精确计数和粗略估算两种token统计方式；完善处理API速率限制，转换为用户友好提示；同时支持策略级限制管理和冷却机制。这套方案最核心的价值在于"成本可见性"设计理念，通过实时透明的成本展示，帮助用户合理控制AI产品使用费用，避免账单意外飙升。

2026-04-02 07:45:39 293

原创 Claude Code 源码分析（七）：终端 UI 工程 —— 用 React Ink 构建工业级命令行界面

摘要本文分析了Claude Code 2.1.88的TypeScript源码架构，重点探讨了其终端UI实现技术。该系统基于React Ink框架构建，包含96个UI组件文件和完整的Vim模式实现(5个文件)。核心特性包括：组件体系：实现终端专用组件库(Box/Button/TextInput等)，支持ANSI序列解析、色彩优化和图片转换功能。 Vim模式：完整的状态机实现，包含标准motion、text object和operator组合逻辑。特殊支持：双向文本渲染(BiDi)和跨终端兼容性处理，针对

2026-04-02 07:45:12 420

原创 Claude Code 源码分析（六）：MCP 客户端实现 —— Model Context Protocol 的工程化落地

本文分析了Claude Code 2.1.88版本中MCP（Model Context Protocol）客户端的实现架构。该客户端包含23个核心文件，主要功能包括：1）支持企业/用户/项目三级配置合并；2）完整的OAuth 2.0认证流程，含自动发现和安全处理机制；3）细粒度的Channel权限管理，通过白名单和权限中继实现访问控制；4）Elicitation交互处理，支持表单和URL两种模式；5）Header辅助注入功能，允许外部程序自定义请求头。这些组件共同构成了一个标准化的AI模型交互框架，支持安全

2026-04-02 07:44:42 415

原创 Claude Code 源码分析（番外）：代码索引的真相 —— 没有 Embedding，没有向量数据库，只有 ripgrep

本文分析了Claude Code 2.1.88版本的代码索引机制，揭示其采用"实时搜索+模型理解"的独特架构，而非传统代码索引方案。研究发现：仅索引文件路径而非内容，使用TypeScript实现的模糊搜索引擎（基于nucleo风格），通过位图加速和异步增量构建优化性能。代码内容搜索完全依赖实时ripgrep调用，不进行预索引，每次搜索都是即时执行。采用混合数据源策略（优先git ls-files，ripgrep兜底），并通过FNV-1a哈希检测变化避免不必要的索引重建。刷新机制结

2026-04-02 07:43:27 854

原创 Claude Code 源码分析（五）：分层记忆体系 —— AI Agent 的知识持久化架构

本文分析了Claude Code 2.1.88版本的三层记忆架构系统。第一层会话内记忆通过增量提取和锁机制管理单次对话知识，与压缩系统协同工作；第二层跨会话记忆通过CLAUDE.md文件实现项目级知识积累；第三层Agent级记忆为不同Agent类型维护独立知识库，支持快照同步。系统采用LRU缓存、去重机制和文件路径安全处理等技术，解决了AI助手在不同时间尺度上的知识持久化问题。记忆系统与上下文压缩、Agent派生等功能深度集成，形成了完整的知识管理体系。

2026-04-01 09:13:44 629

原创 Claude Code 源码分析（四）：上下文窗口管理 —— 长对话场景下的 Token 预算与自动压缩

本文分析了Claude Code 2.1.88版本的上下文窗口管理方案，重点介绍了其自动压缩触发机制、熔断保护设计和多策略压缩实现。系统通过动态阈值计算和多级警告机制管理上下文token消耗，采用会话记忆压缩优先的策略，并设计了熔断器防止递归失败。预处理步骤和微压缩技术进一步优化了压缩效果，有效解决了长时间会话中的上下文膨胀问题。

2026-04-01 09:11:37 502

原创 Claude Code 源码分析（三）：Tool 系统的抽象设计 —— 40+ 个工具背后的统一架构

本文分析了Claude Code 2.1.88版本中工具系统的设计实现。核心内容包括：1）Tool接口定义了工具的完整生命周期，包含身份识别、执行控制、安全权限、Schema定义、UI渲染和Prompt生成等6个功能域；2）buildTool工厂函数采用fail-closed原则设置默认值，确保新增工具时的安全性；3）通过类型系统保证工具实现的正确性。文章重点剖析了工具系统的统一抽象设计及其在可扩展性和安全性方面的考量。

2026-04-01 09:10:34 426

原创 Claude Code 源码分析（二）：Shell 命令安全体系 —— AI Agent 执行终端命令的纵深防御设计

本文分析了Claude Code 2.1.88版本中BashTool模块的安全防御机制。该系统通过2400多行TypeScript代码构建了纵深防御体系，包含30余种安全校验函数，覆盖Shell元字符注入、Zsh特有攻击等风险。核心校验管线采用多视图分析（引号提取）和独立验证函数，包括检测不完整命令、花括号展开攻击等。路径安全模块则通过绝对路径校验防止关键目录被删除。系统严格限制危险操作，对可疑命令强制用户确认，体现了AI执行Shell命令时的安全设计思路。

2026-04-01 09:08:35 627

原创 Claude Code 源码分析（一）：多 Agent 协调器架构 —— 一个工业级 Coordinator-Worker 模式的完整实现

本文基于Claude Code 2.1.88版本的TypeScript源码分析其多Agent协作架构。该架构采用Coordinator-Worker模式，Coordinator负责任务分解与结果综合，Worker执行具体操作。源码包含4756个文件，其中1884个是TS/TSX源文件。文章详细剖析了任务生命周期管理、Worker派生机制和工具过滤系统。Coordinator通过AgentTool派生Worker，SendMessageTool与Worker交互，TaskStopTool终止任务。Worke

2026-04-01 09:07:36 669

原创我用游戏引擎的思想，重新设计了 AI Agent 的记忆系统

MemoryAtlas：基于游戏引擎思想的智能体记忆管理系统本文提出了一种创新的智能体记忆管理方案MemoryAtlas，借鉴游戏引擎的资源管理思想解决现有记忆系统的缺陷。系统采用三级精度动态切换（L0-L2）、预测性预加载和主动遗忘机制，通过热/温/冷三层缓存实现高效记忆管理。基准测试显示，相比传统方案，MemoryAtlas可节省93.4%的token使用，缓存命中率达76%，预加载准确率100%。系统采用轻量级技术栈（Python+DuckDB），支持一行代码接入LangChain，提供完整的CLI

2026-03-27 07:47:07 757

原创 CLI-Anything 深度解析：一行命令让所有软件成为 AI Agent 的原生工具

当前大语言模型（LLM）的推理能力已相当成熟，但在操控真实专业软件方面仍存在显著短板。GUI 自动化（RPA/截图点击）：脆弱、不可靠，界面微调即可导致流程崩溃。有限的 API 封装：覆盖面窄，往往只暴露了软件 10% 的功能。功能重新实现：用 Python 库（如 Pillow）替代 GIMP 的渲染引擎，本质上是"玩具级"方案，无法处理真实工作负载。CLI-Anything 项目的核心主张是：CLI 是人类与 AI Agent 共通的万能接口。文本命令天然匹配 LLM 的输入格式，

2026-03-27 07:45:51 1170

原创 Harness Engineering：继 Context Engineering 之后，AI Agent 时代的新工程范式

摘要： 2026年2月提出的Harness Engineering标志着AI交互的第三阶段，从Prompt Engineering（优化提问）到Context Engineering（优化上下文），再到Harness Engineering（优化系统环境）。其核心是通过外部基础设施（如约束、验证、工具集成）确保Agent的长期稳定运行，而非依赖模型改进。OpenAI和CLI-Anything等项目验证了这一理念：前者通过Harness实现百万行代码的自动化开发，后者为软件操控设计结构化接口。Harness

2026-03-26 07:45:56 2795

原创 CLI-Anything 只能用于桌面端软件吗？如何为自己的软件生成 Agent 可用的 CLI

CLI-Anything 工具支持为多种软件形态生成命令行界面，包括桌面应用、本地/云端服务、AI推理引擎等。通过分析23个现有实例，文章归纳出6种后端集成范式：子进程调用、REST API交互（本地/云端）、MCP协议、封装已有CLI及本地文件解析。使用决策树可判断软件适用哪种范式，只需具备可编程接口即可接入。实操部分介绍了从代码分析到发布的全流程，包括单次生成、迭代优化和测试验证。该工具突破了桌面软件限制，适用于任何有编程接口的软件系统。

2026-03-26 07:45:13 597

原创 sse-starlette 源码深度解析：SSE 协议在 Python 异步生态中的工程实现

本文基于sse-starlette v3.3.3源码，分析其架构设计与核心机制。该库通过ServerSentEvent类实现SSE协议编码，支持多种数据类型转换；EventSourceResponse类管理SSE连接生命周期，采用任务组竞赛模型处理数据推送、心跳检测等并发任务。文章还结合A2A Python SDK案例，展示了SSE技术在AI Agent流式通信中的工程应用。该库设计精简但功能完备，为Starlette/FastAPI框架提供了高效的SSE实现方案。

2026-03-21 07:52:09 391

原创 A2A Python SDK 源码架构解读：一个请求是如何被处理的

本文是A2A协议Python SDK源码解析的第三篇，通过类比和流程图讲解a2a-python如何实现协议规范。SDK作为官方Python实现，提供客户端和服务端两大能力，核心依赖仅5个包。采用Pydantic处理数据模型，自动转换Python风格与协议要求的JSON命名格式。服务端采用分层设计，类比餐厅工作流程：从HTTP请求接收、协议适配、核心调度到Agent业务逻辑执行，最后通过事件队列实现流式响应。代码结构清晰，包含类型定义、客户端实现、服务端引擎等模块，开发者只需关注业务逻辑实现。

2026-03-21 07:51:23 582

原创 A2A 协议规范深度剖析：三层架构、数据模型、操作语义与协议绑定

本文深入解析A2A协议规范的三层架构设计：1) 规范数据模型层，使用Protocol Buffers定义核心数据结构；2) 抽象操作层，提供协议无关的操作定义；3) 协议绑定层，实现具体协议映射。重点剖析了Task、Message、Artifact等核心对象的字段设计与语义，包括状态机枚举、内容容器设计等关键技术细节。规范通过严格的分层设计确保核心语义一致、扩展灵活，同时保持各协议绑定间的互操作性。

2026-03-20 09:08:20 461

原创 Agent2Agent（A2A）协议全景解析：架构设计、核心机制与工程实践

A2A 协议为 AI Agent 生态提供了一套完整的协作通信标准。简洁性：基于 HTTP、JSON-RPC、SSE 等成熟技术，降低采纳门槛不透明性：Agent 间协作无需暴露内部实现，保护知识产权企业就绪：认证、授权、可观测性、API 治理等能力内建于协议设计异步优先：原生支持长时间运行任务、流式传输和推送通知模态无关：支持文本、文件、结构化数据等任意内容类型的交换可扩展：通过 Extension 机制支持领域特定的定制，不破坏核心规范A2A 协议官方文档A2A 协议规范A2A 示例代码。

2026-03-20 09:07:22 805

原创 CoPaw × ReMe 源码解析：LLM 绕过、文件化记忆与自动压缩的工程实践

CoPaw采用ReMeFb实现记忆管理，通过文件化工作记忆解决长对话上下文溢出问题。系统包含两部分：sessions/目录保存未压缩的近期消息和压缩摘要，用于恢复对话状态；memory/目录持久存储提炼后的知识，支持混合检索。压缩时自动触发双路输出——FbCompactor生成滚动摘要注入上下文，FbSummarizer异步追加详细记录到Markdown文件。这种设计既保证当前对话连贯性，又实现长期知识积累，相比ReMe类的向量化方案更轻量且直观。

2026-03-02 08:08:00 2437

原创 ReMe vs Mem0 源码对比：两种 AI 记忆管理方案的架构差异

AI记忆管理框架对比：ReMe与Mem0 ReMe和Mem0是当前开源的两种典型AI记忆管理框架，定位和设计哲学存在显著差异。ReMe由AgentScope团队开发，专注于Agent的上下文管理，将记忆视为对话压缩的副产品，采用Markdown文件存储，通过FileWatcher异步更新向量索引。Mem0由Y Combinator孵化，定位为AI应用的个性化记忆层，采用显式调用方式管理结构化记忆，支持向量数据库和SQLite变更历史，提供完整记忆追踪功能。关键差异体现在：触发机制：ReMe被动触发，Me

2026-03-02 08:07:15 1336

原创 ReMe 实践指南：使用场景、集成方式与 LLM 驱动记忆管理的效率分析

摘要：ReMe 是一个基于 LLM 的记忆管理工具包，专为需要跨会话学习和优化的 AI 智能体设计。其核心优势在于通过任务记忆、个人记忆、工具记忆和工作记忆四类场景，显著提升智能体的执行效率（多步任务成功率提升 5%-15%）和个性化体验。ReMe 提供 Python 导入、HTTP API 和 MCP 协议三种集成方式，支持多种向量存储后端。虽然每次记忆操作需要 1-5 次 LLM 调用，但在长周期任务和高价值场景中，其性能收益远超管理成本。该工具特别适合复杂任务执行、个性化对话和长期运行的智能体系统。

2026-03-01 15:27:27 1020

原创 ReMe 工作记忆深度解析：Split Turn 感知的上下文压缩机制

摘要： ReMe工作记忆模块针对AI智能体长对话中的上下文膨胀问题，提出了一种Split Turn感知的压缩机制。传统截断方法会破坏对话轮次（Turn）的完整性，导致语义断裂。ReMe采用三段式切割模型：将消息划分为完整历史摘要区（messages_to_summarize）、分裂轮次前缀（turn_prefix_messages）和保留区（left_messages），分别进行摘要生成、关键上下文保留和原始消息留存。核心算法通过逆向token累计定位切割点，动态识别Clean Cut（轮次边界切割）和Sp

2026-03-01 14:57:36 832

原创 ReMe 深度解析：面向 AI 智能体的模块化记忆管理工具包设计与实现

摘要：ReMe 是由 AgentScope 团队开发的开源智能体记忆管理工具包，采用模块化设计将记忆管理视为智能体任务而非简单数据存取。其架构分为用户入口层、应用编排层、记忆代理层和基础设施层，核心创新在于记忆代理层由 LLM 驱动的智能流程实现。基础数据结构 MemoryNode 通过 when_to_use 字段实现检索意图与存储内容的解耦，类比图书馆索引卡机制，有效解决了传统向量检索中语义鸿沟问题。该系统借鉴人类记忆分层模型，支持长期记忆持久化和短期记忆动态管理，为 AI 智能体提供持续学习能力。

2026-03-01 14:38:30 1524

原创 RAG应用数据库选型：DuckDB、Milvus与SurrealDB深度对比分析

摘要检索增强生成(RAG)技术中，向量数据库的选择直接影响系统性能。本文对比分析了DuckDB、Milvus和SurrealDB三款数据库在RAG应用中的表现。DuckDB作为嵌入式OLAP数据库，适合轻量级场景但缺乏专业向量索引；Milvus是专用向量数据库，支持多种ANN算法和大规模扩展；SurrealDB则提供多模型统一架构，将向量检索与文档、图查询结合。三者在向量检索能力、混合查询、扩展性等方面各具优势，应根据具体场景需求进行选择。

2026-02-28 07:45:17 920

原创 DuckDB在AI应用领域的使用场景与技术优势深度解析

摘要 DuckDB作为一款高性能嵌入式分析型数据库，凭借其独特的架构设计在AI/ML领域展现出显著优势。其向量化执行引擎和并行处理框架提供卓越的查询性能，与Python生态深度集成支持零拷贝数据交互。原生Parquet/Arrow格式支持简化了特征工程流程，嵌入式架构降低了部署成本。在AI应用中，DuckDB特别适用于大规模特征计算、时序数据处理和向量检索场景，其混合检索策略可有效支持RAG应用。这些特性使DuckDB成为AI工作流中高效的数据处理引擎选择。

2026-02-28 07:44:31 934

原创 LangChain Deep Agents Execute 工具与沙箱环境深度解析

本文深入分析了LangChain Deep Agents框架中的execute工具实现原理。该工具通过FilesystemMiddleware定义，支持执行Shell命令并返回结果。系统采用分层协议设计，将基础文件操作与沙箱命令执行能力分离。底层实现基于Python的subprocess.run()，支持超时控制、输出截断保护等特性，并通过环境变量和工作目录配置确保执行安全性。文章详细解析了工具参数、返回值结构以及核心执行流程，揭示了AI Agent框架中命令执行功能的实现机制。

2026-02-25 08:05:26 1606

原创 LangChain Deep Agents Skills系统架构深度解析

本文深入分析了LangChain Deep Agents框架的技能系统(Skills System)。技能系统采用分层架构设计，包含CLI层、SDK层和Backend层，支持多级目录优先级机制。每个技能是一个独立目录，包含SKILL.md定义文件和可选资源。文章详细解析了技能元数据定义、SKILL.md文件解析逻辑以及核心组件SkillsMiddleware的实现，该系统通过模块化技能扩展AI Agent的专业能力，为特定领域提供工作流程、工具集成和专业知识封装。

2026-02-25 08:04:35 1532

原创智能体架构选型之争：OpenClaw与VibeSurf的技术路线对比分析

2024-2025年，随着大语言模型能力的持续提升，AI智能体（AI Agent）从概念验证走向工程实践。在这一进程中，开源社区涌现出多种技术路线和架构范式。本文选取OpenClaw和VibeSurf两个具有代表性的开源智能体项目，从架构设计、载体选型、技术栈、设计哲学等维度进行系统性对比分析，旨在为智能体开发者的技术选型提供参考框架。

2026-02-14 13:12:15 1361

原创 OpenClaw：开源多渠道AI个人助手的技术架构与实践分析

随着大语言模型技术的成熟，个人AI助手正在从概念走向实用。OpenClaw作为一款开源的多渠道AI个人助手项目，通过统一的Gateway架构实现了跨平台、多渠道的消息集成能力。本文将从技术架构、核心功能、部署方式等维度对OpenClaw项目进行系统性分析，为有类似需求的开发者提供参考。

2026-02-14 13:11:26 2559

原创 VibeSurf：开源AI智能浏览器助手的技术解析与实践指南

VibeSurf是一款创新的开源AI浏览器助手，将工作流自动化与智能代理技术相结合。该项目采用模块化架构设计，支持Python+FastAPI后端和React前端，通过LangGraph实现AI代理工作流编排。核心功能包括可视化工作流引擎、多代理并行处理、智能技能系统和本地LLM支持，适用于数据采集、自动化测试、RPA流程等多种场景。虽然具备架构先进、生态完善等优势，但目前仍存在执行效率、Token消耗较高以及Chrome依赖等局限性。VibeSurf提供了Docker、一键安装等多种部署方式，为开发者提供

2026-02-14 13:10:40 1169

原创 CopilotKit for LangGraph 深度解析：构建 Agent 原生应用的前端交互框架

本文分析了CopilotKit与LangGraph集成中的关键Hook设计，重点对比了useAgent/useCoAgent和useRenderToolCall/useCoAgentStateRender两组核心接口。useCoAgent提供基础状态共享，而useAgent(v2)新增消息历史管理、多Agent协调等高级功能。useRenderToolCall专注工具调用时的UI渲染，useCoAgentStateRender则基于状态变更触发UI更新。这些Hook为构建Agent原生应用提供了灵活的前端集

2026-02-12 21:45:29 1723

原创 AntV G6、X6 与 React Flow 深度对比：核心差异与大模型时代的应用场景分析

本文对比了AntV G6、X6和React Flow三款主流图可视化引擎的核心差异。G6专注于图数据分析与可视化，内置多种布局算法，适合知识图谱等展示场景；X6侧重图形编辑能力，提供丰富的编辑器组件，适合流程图设计等交互场景；React Flow深度融入React生态，采用受控组件架构，适合构建AI工作流编排等应用。选型决策应基于项目需求（展示/编辑）、数据规模和技术栈（React/非React）综合考量，G6适合大规模数据可视化，X6适合多框架编辑器开发，React Flow则更适合React技术栈的轻量

2026-02-12 14:52:47 1162

原创 React Flow：构建交互式节点编辑器的 React 组件库

React Flow 是一个功能强大的开源 React 组件库，专门用于构建基于节点的交互式用户界面。它采用 Monorepo 架构，包含核心库、Svelte 版本和底层系统库。主要功能包括灵活多样的节点系统（支持自定义节点）、多种边类型连接、丰富的交互操作（缩放、平移、多选等），以及开箱即用的附加组件（背景、控制面板、小地图等）。React Flow 还提供完善的 Hooks API 进行状态管理和节点/边操作，适用于流程图编辑器、工作流设计等多种场景。

2026-02-11 08:50:02 1122

原创大模型结构化输出实现原理：以 LangChain 框架为例

本文系统分析了大模型结构化输出的技术实现，从底层约束解码原理到LangChain框架实践。介绍了三种技术方案演进：Prompt工程、输出解析器和约束解码，其中约束解码通过上下文无关文法实现高可靠性JSON生成。详细阐述了LangChain的多层架构，包括Pydantic模型定义、ProviderStrategy原生支持和ToolStrategy工具调用方案，为开发者提供了灵活的结构化输出实现路径。

2026-02-11 08:48:36 1216

原创 OpenAI API 演进：Chat Completions 与 Responses API 深度对比分析

OpenAI于2025年3月推出新一代Responses API（/v1/responses），与当前主流的Chat Completions API形成技术代际差异。Responses API采用有状态设计，原生支持对话管理、内置多种工具调用（如web搜索、代码解释器等），并优化了流式输出和推理能力。相比之下，Chat Completions API仍保持无状态架构，更适合简单对话和兼容性场景。分析表明，Responses API将重塑智能体开发范式，使简单Agent应用可能"去框架化"

2026-02-11 08:48:08 1897

原创 Markmap：将 Markdown 转换为交互式思维导图的开源工具

Markmap是一款基于JavaScript的开源工具，可将Markdown文档转换为交互式思维导图。项目采用Monorepo架构，核心模块包括解析库(markmap-lib)、视图渲染引擎(markmap-view)和命令行工具(markmap-cli)。支持Markdown解析、LaTeX公式渲染、代码高亮等功能，并提供节点折叠、缩放平移等交互特性。可通过CLI、网页嵌入或编辑器插件使用，适用于知识整理、文档展示等场景。具有插件化架构、响应式布局等特点，是可视化Markdown内容的实用工具。

2026-02-10 07:17:21 829

docker和docker-compose离线安装包

model scope notebook环境下使用llm-compressor对qwen3-8b模型量化示例

model scope notebook环境下使用ms-swift对Qwen3-8B的微调实例，包括awq，gptq，bnb量化

基于bnb的qlora微调实例

ComfyUI宜编程工作流和节点探索-图像编辑工作流

ComfyUI宜编程工作流和节点探索系统-文生图

智能影音合成系统：基于通义万相Wan2.2-S2V的探索与实践最终生成视频

基于latex和字符映射的rag解析优化源文件

js 浮点数加法运算

js文本框输入正整数的验证

W3CSchool超全教程

空空如也