卖报的大地主-CSDN博客

原创 Learn Claude Code Agent 开发 | 10、团队协作协议：优雅关机和计划审批的标准化握手

生产级智能体框架整合实现 s_full.py是learn-claude-code系列的最终实现，整合了s01-s11的所有特性，形成生产可用的完整智能体框架。该实现采用模块化架构，包含：基础工具：路径沙箱和核心操作工具任务管理：内存待办和持久化DAG任务系统子智能体：探索型和通用型上下文隔离技能加载：按需加载技能文件上下文压缩：三层自动压缩机制后台执行：线程级任务和队列通知通信机制：跨进程收件箱和团队协议自治能力：自动任务认领和身份维护核心循环整合了压缩流水线、后台通知、收件箱检查等前置处

2026-04-01 15:07:32 136

原创 Learn Claude Code Agent 开发 | 13、生产级全特性智能体：所有机制整合的最终参考实现

生产级智能体框架整合实现 s_full.py是learn-claude-code系列的最终实现，整合了s01-s11的所有特性，形成生产可用的完整智能体框架。该实现采用模块化架构，包含：基础工具：路径沙箱和核心操作工具任务管理：内存待办和持久化DAG任务系统子智能体：探索型和通用型上下文隔离技能加载：按需加载技能文件上下文压缩：三层自动压缩机制后台执行：线程级任务和队列通知通信机制：跨进程收件箱和团队协议自治能力：自动任务认领和身份维护核心循环整合了压缩流水线、后台通知、收件箱检查等前置处

2026-04-01 15:03:26 497

原创 Learn Claude Code Agent 开发 | 12、目录级隔离：Git Worktree实现多任务并行无冲突

摘要本文介绍了基于Git Worktree实现的多任务并行开发隔离机制，解决了多智能体协作时的目录冲突问题。核心创新包括：控执分离架构：任务管理（控制面）与工作目录（执行面）解耦，通过任务ID双向绑定目录级隔离：每个任务拥有独立的Git Worktree目录和专属分支，实现物理隔离完整生命周期管理：从创建、执行到清理的全流程状态跟踪可观测性设计：通过事件总线记录所有操作，支持审计和故障恢复关键技术实现包括自动检测Git根目录、事件日志系统、任务-worktree绑定机制以及Worktree全生命

2026-04-01 15:01:01 354

原创 Learn Claude Code Agent 开发 | 11、自治智能体：自组织任务认领的无人值守模式

摘要本文介绍了自治智能体自组织协作机制，实现了多智能体系统的分布式自组织模式。该机制通过双阶段生命周期（工作/空闲）、主动轮询和自动任务认领等创新设计，解决了中心化任务分配的扩展性瓶颈。关键特性包括：智能体自动扫描未认领任务并认领工作（带锁保证线程安全）、空闲超时自动关机、上下文压缩后的身份重注入机制等。代码实现包含任务看板扫描工具、身份恢复功能和核心循环逻辑，使智能体团队能够实现真正的"无人值守"协作。

2026-04-01 14:57:40 310

原创 Learn Claude Code Agent 开发 | 9、多智能体团队：基于文件通信的持久化协作机制

文章摘要本文介绍了Claude Code Agent中实现多智能体团队协作的关键机制。系统通过文件式通信和持久化身份解决了单智能体能力有限的问题，支持复杂任务的拆分协作。核心架构包括：持久化团队管理：使用.team/config.json存储成员信息，实现跨会话的身份保留文件式通信：基于JSONL格式的邮箱系统实现智能体间可靠通信，支持5种标准消息类型线程级隔离：每个智能体运行在独立线程，拥有专属上下文和工具集完整生命周期：支持生成(SPAWN)、工作(WORKING)、空闲(IDLE)、关闭(S

2026-04-01 14:53:57 329

原创 Learn Claude Code Agent 开发 | 8、后台异步执行：慢操作不阻塞主工作流

文章摘要本篇文章介绍了Claude Code Agent开发中的后台异步执行机制，解决了长耗时命令阻塞主工作流的问题。核心设计采用主线程与后台线程并行执行的架构，通过BackgroundManager类管理任务状态、通知队列和线程安全。系统提示模型使用background_run工具处理慢操作，后台任务启动后立即返回task_id，执行完成后结果注入通知队列。该机制实现了非阻塞执行、自动结果注入和线程安全，使智能体能够同时处理多个任务，显著提升工作效率。代码实现包括任务状态管理、守护线程执行、结果捕获和通

2026-04-01 14:50:49 313

原创 Learn Claude Code Agent 开发 | 7、持久化任务图：多任务依赖管理的核心骨架

文章摘要本文介绍了Claude Code Agent开发中的持久化任务图系统，该系统通过将任务以DAG形式存储在磁盘上，解决了内存级待办清单的四个核心痛点：无结构、易丢失、缺乏并行支持和状态管理不足。系统采用.tasks/目录存储独立JSON文件，通过blockedBy和blocks字段维护任务依赖关系，实现自动解锁机制和状态流转（pending→in_progress→completed）。TaskManager类提供任务创建、更新、依赖管理和自动解锁功能，支持智能调度回答"什么可以做/被卡住

2026-04-01 14:46:41 675

原创 Learn Claude Code Agent 开发 | 6、三层压缩策略：支持无限长会话的内存管理

本文介绍了Claude Code Agent开发中的三层上下文压缩机制，用于解决大语言模型在处理大型项目时面临的上下文窗口限制问题。核心策略包括：轻量级micro_compact层：静默压缩旧工具结果为占位符自动摘要auto_compact层：在token超过阈值时将完整对话存档并生成摘要主动compact工具：允许模型手动触发摘要该设计通过策略性遗忘而非硬截断的方式，在保持完整历史记录的同时有效管理活跃上下文，使智能体能够处理长时间运行的大型项目任务。关键创新点在于分层压缩策略和转录本永久保存机制

2026-03-28 18:19:01 118

原创 Learn Claude Code Agent 开发 | 5、按需技能加载：领域知识不用全塞系统提示

本文介绍了一种创新的按需技能加载机制，通过分层设计解决传统知识注入方式的问题。核心思想是"用到什么知识才加载什么知识"，采用两层架构：第一层在系统提示中轻量列出可用技能（约100token/技能），第二层通过工具调用按需加载完整技能内容（约2000token/技能）。该方法避免了将所有领域规则塞入系统提示导致的token浪费和上下文臃肿，实现了轻量化的知识管理。技术实现上通过SkillLoader类自动扫描技能目录，支持YAML元数据，并与现有架构无缝集成，新增功能无需修改核心循环。这种

2026-03-28 18:07:00 135

原创 Learn Claude Code Agent 开发 | 4、子智能体机制：大任务拆成小任务不污染主对话

摘要本文介绍了Claude Code Agent中的子智能体机制，通过上下文隔离解决长对话任务中的信息污染问题。核心设计包括：上下文隔离：子智能体使用独立的消息数组，执行完毕后只返回摘要结果，避免中间过程污染主对话权限分离：父智能体拥有派生子任务权限，子智能体仅保留基础工具，防止递归嵌套安全机制：子智能体设置30轮执行上限，避免无限循环该机制有效解决了传统单智能体模式下因上下文膨胀导致的模型注意力分散问题，使复杂任务拆解执行更加高效可靠。通过父子智能体的协同工作，实现了任务分解与结果精炼的平衡。

2026-03-28 18:01:23 173

原创 Learn Claude Code Agent 开发 | 3、结构化任务规划：让智能体不跑偏的待办系统

文章摘要：本文介绍了Claude Code Agent开发中的结构化任务规划系统设计，重点解决多步任务中智能体容易跑偏的问题。核心创新包括：1) 引入TodoManager作为结构化状态存储，强制单任务聚焦；2) 新增todo工具与其他工具平等集成；3) 设计Nag提醒机制，当模型连续3轮不更新待办时自动注入提醒。该系统通过严格的校验规则（最多20个待办、三种状态流转、单任务锁定）和清晰的进度渲染，使智能体能够有效规划多步任务，避免重复、跳步或偏离目标。实现上保持了工具系统的扩展性，仅需少量代码改动即可集

2026-03-28 17:51:55 143

原创 Learn Claude Code Agent 开发 | 2、插拔式工具系统：扩展功能不修改核心循环

本文介绍了Claude Code Agent开发中的插拔式工具系统设计，核心思想是通过分发字典机制实现功能扩展而不修改核心循环。系统解决了单bash工具的缺陷，包括安全性问题和扩展性问题。关键设计包括：路径安全沙箱机制，防止越权访问四种独立工具实现（bash、文件读写、编辑）工具分发字典作为核心扩展机制，新增工具只需注册无需修改循环工具定义数组为LLM提供调用规范这种设计实现了开闭原则，工具扩展不影响核心逻辑，同时通过路径沙箱和参数校验提升了安全性。核心智能体循环保持不变，仅通过分发字典动态调用工

2026-03-28 17:46:29 197

原创 Learn Claude Code Agent 开发 | 1、一个循环 + 一个工具 = 一个 Agent

介绍了Claude-Code智能体的基础架构实现，展示了一个"循环+工具=Agent"的极简设计模式。核心在于一个循环处理流程：1)调用LLM获取响应；2)若模型决定调用工具则执行并反馈结果；3)循环直到任务完成。文章解析了环境配置、系统提示设计、Bash工具的安全实现（包含危险命令拦截和超时处理），以及最关键的智能体循环逻辑，该循环持续维护对话历史并处理工具调用。交互式主循环支持用户输入触发智能体工作流，完整呈现了从用户输

2026-03-28 17:34:36 203

原创视觉生成底层技术发展脉络与研究图谱

视觉生成技术近年经历了从GAN/VAE向扩散模型和流匹配方法的范式转变。扩散模型通过逐步去噪实现高质量生成，但采样速度慢；流匹配和Rectified Flow等方法将生成视为确定性输运过程，可实现快速甚至单步生成。同时，Schrödinger桥框架为跨域生成提供了新思路，而一致性模型等少步生成技术显著提升了效率。本文系统梳理了扩散模型、流匹配、Schrödinger桥、少步生成等核心技术路线，分析其联系与区别，并指出未来向高效、可控生成的发展趋势。

2026-03-28 17:15:17 222

原创扩散薛定谔桥（Diffusion Schrödinger Bridge）

本文介绍了扩散薛定谔桥(DSB)方法，这是一种在两个端点分布之间学习随机过渡动力学的技术。DSB的核心目标是构造满足边界约束且接近参考扩散过程的路径分布，适用于无条件生成和条件生成任务。与标准扩散模型不同，DSB可以处理任意两个给定分布之间的转换，如图像恢复和跨时相生成等。文章详细阐述了DSB的数学定义、与标准扩散模型的异同、与最优传输和Flow Matching的关系，并分类介绍了无条件DSB和条件DSB(I2SB)的实现方法。最后讨论了DSB的模型结构设计和两种训练机制：基于IPF的交替训练和I2SB的

2026-03-28 16:52:26 235

原创强化学习在图像生成中的应用：范式演进、算法机制与前沿展望

强化学习（RL）在图像生成中的应用正从传统的数据匹配转向目标驱动，以解决生成模型在美学、逻辑推理等主观维度上的不足。通过将生成过程形式化为马尔可夫决策过程（MDP），RL优化了扩散模型、笔触渲染等架构的非微分目标。经典算法如DDPO、RLHF和DPO提升了语义对齐与推理能力，而奖励工程和高质量偏好数据集（如ImageReward）进一步推动了性能提升。RL的应用已扩展至复杂逻辑推理和机器人视觉领域，展现了在生成质量与可控性上的显著优势。

2026-02-04 16:26:51 638

原创一键构建xBD建筑灾害语义级变化检测/建筑分割提取可执行数据集（可直接用于模型训练/验证）

本文介绍了一个用于处理xBD灾害数据的Python脚本，主要功能包括文件整理、掩码值转换、JSON文件更新、灾害标签生成和伪彩色转换。脚本通过命令行参数控制执行步骤，支持批量处理多个源目录中的数据。具体步骤包括：1) 文件整理，去除文件名中的“_pre”和“_post”后缀，并将文件分类存储；2) 掩码值转换，将0-1范围的掩码值转换为0-255；3) JSON文件更新，修改JSON文件中的图像名称；4) 灾害标签生成，根据前后灾图像生成灾害等级标签；5) 伪彩色转换，将单通道掩码转换为伪彩色图像。

2025-04-08 23:40:57 1010 2

原创一键批量生成遥感变化检测模型热力图（基于openmmlab或opencd）

本文介绍了一个用于生成和可视化类激活映射（CAM）的Python脚本，主要用于基于openmmlab或opencd变化检测模型的解释性分析。脚本通过配置字典定义模型、数据和CAM的生成参数，支持多种CAM方法（如GradCAM、GradCAM++、LayerCAM等）。核心功能包括模型初始化、图像预处理、目标层提取、CAM生成及热力图保存。脚本还提供了对ViT类模型的支持，并包含异常处理和资源清理机制，确保在GPU和CPU环境下的稳定运行。最终，生成的CAM结果和热力图将保存到指定目录。

2025-04-08 00:45:32 355

原创【论文笔记-ECCV 2024】AnyControl：使用文本到图像生成的多功能控件创建您的艺术作品

近年来，文本到图像（T2I）生成领域取得了重大进展，主要是由扩散模型的进步驱动的。语言控制使有效的内容创建成为可能，但对图像生成的细粒度控制却很困难。在很大程度上，通过结合额外的用户提供的空间条件（如深度图和边缘图），然而，多控制图像合成仍然面临着一些挑战。具体而言，现有方法在处理不同输入控制信号的自由组合方面受到限制，忽略了多个空间条件之间的复杂关系，并且通常无法保持与提供的文本提示语义对齐。这可能导致次优的用户体验。

2025-02-26 16:56:43 1638 1

原创【论文笔记-ICLR 2025 满分】IC-Light：通过实施一致的光传输，扩展基于漫射的照明协调和编辑的野外训练

基于扩散的图像生成器正在成为照明协调和编辑的独特方法。目前扩大基于扩散的照明编辑模型训练的瓶颈主要在于难以保留底层图像细节并保持内在属性（如反照率）不变。如果没有适当的约束，直接使用复杂、多样或野生数据训练最新的大型图像模型可能会产生结构引导的随机图像生成器，而不是实现精确照明操作的预期目标。我们提出了**在训练期间施加一致光（ICLight）传输，其根源在于物理原理，即物体在不同照明条件下的外观与其在混合照明下的外观一致。

2025-02-26 13:26:20 1038 1

原创【论文笔记-ICCV 2023】ControlNet：为文本到图像扩散模型添加条件控制

我们的解决方案是首先将条件图像添加到 εc，然后根据每个块的分辨率 wi = 64/hi，将权重 wi 乘以 Stable Diffusion 和 ControlNet 之间的每个连接，其中 hi 是第 i 个块的大小，例如，h1 = 8，h2 = 16，…在训练过程中，由于零卷积不会给网络增加噪声，因此模型应该始终能够预测高质量的图像。为了将 ControlNet 添加到这样的块中，我们锁定原始块并创建一个可训练的副本，并使用零卷积层将它们连接在一起，即 1 × 1 卷积，权重和偏差都初始化为零。

2025-02-26 13:17:29 1564 1

原创【论文笔记-TPAMI 2024】FreqFusion：用于密集图像预测的频率感知特征融合

密集图像预测任务要求具有强类别信息和高分辨率精确空间边界细节的特征。为了实现这一点，现代分层模型通常利用特征融合，直接添加来自深层的上采样粗特征和来自较低层次的高分辨率特征。在本文中，我们观察到融合特征值在对象内的快速变化，由于高频特征的干扰导致类别内不一致。此外，融合特征中模糊的边界缺乏准确的高频，导致边界位移。基于这些观察结果，我们提出了频率感知特征融合（FreqFusion），集成了自适应低通滤波器（ALPF）发生器，偏移发生器和自适应高通滤波器（AHPF）发生器。ALPF生成器预测空间变化的低通滤波

2025-02-26 13:07:09 2018 1

原创【MMSegmentation改进】修改IoUMetric，增加Kappa系数评价指标

【MMSegmentation改进】修改IoUMetric，增加Kappa系数评价指标（支持Opencd）

2024-09-24 21:12:27 548

原创多颜色绘制语义分割/变化检测结果图

在论文绘图时，传统的二元语义分割结果图颜色单一（下图左），所以论文中常根据混淆矩阵类别使用多颜色进行绘制（下图右），可以看到，结果的可视化效果更好。

2024-09-24 21:06:59 705

原创【细说fine-tuning】LoRA：低秩自适应策略（附官方代码与教程）

目前诸如GPT、Llama等大型AI模型通常具有非常大的参数量，要想将其迁移到具体的下游场景任务中，利用重头训练的全局微调变得十分昂贵，对于普通研究者明显不现实，为此Microsoft提出了一种低消耗的大模型微调方法—LoRA（Low-Rank Adaptation）。$LoRA$基于适配器的思想，通过调整学习外部模块来对下游特定任务进行知识泛化，并通过可学习的秩分解矩阵设计降低模型微调与存储的开销问题。

2024-04-27 16:37:08 8924 1

原创【论文笔记】基于预训练模型的持续学习（Continual Learning）（增量学习，Incremental Learning）

持续学习（Continual Learning, CL）旨在使模型在学习新知识的同时能够保留原来的知识信息了，然而现实任务中，模型并不能很好地保留原始信息，这也就是常说的灾害性遗忘（Catastrophic forgetting）问题。传统的CL方法需要从头开始训练模型（从随机初始化参数开始训练），目前基于大规模数据训练得到的预训练模型为持续学习带来了新的研究思路，预训练模型鲁棒的泛化性给予新任务学习较为成熟的参数，也因此基于预训练模型的CL方法已逐渐成为研究热点。

2024-04-21 22:42:52 8675 1

原创【论文笔记】RS-Mamba for Large Remote Sensing Image Dense Prediction（附Code）

论文作者提出了RS-Mamba(RSM)用于高分辨率遥感图像遥感的密集预测任务。RSM设计用于模拟具有线性复杂性的遥感图像的全局特征，使其能够有效地处理大型VHR图像。它采用全向选择性扫描模块，从多个方向对图像进行全局建模，从多个方向捕捉大的空间特征。2D全向扫描机制是本研究的主要创新点。作者考虑到遥感影像地物多方向的特点，在VMamba2D双向扫描机制的基础上增加了斜向扫描机制。

2024-04-17 14:56:58 1903 11

原创三通道或单通道图像裁剪与拼接

三通道或单通道图像裁剪与拼接

2024-04-14 21:35:30 426

原创利用计算机视觉算法提取裂纹相关特征参数信息

使用计算机视觉相关算法提取裂缝的骨架（矢量化）、轮廓【支持提前修复断裂裂缝】，以及几何特征参数（长度、宽度、面积和主要方向）

2024-04-14 21:20:29 1500 1

原创 YOLTV8 — 大尺度图像目标检测框架（欢迎star）

本项目以最新的YOLOV8为检测框架，增设多尺度，多信息的预处理模块，捕获大尺度图像的多尺度上下文信息，能够有效识别出大尺度图像的大小型识别物体以及密集型检测目标。另外，此次我们还对对原始NMS算法进行改进，以满足不同类型物体以及重叠框（尤其是位于边缘的检测框）的过滤，实现大尺度影像的精确检测。各参数信息和前文一样。：多尺度，多信息的预处理模块还未上传，但不影响正常使用，可先增大裁剪尺寸以及重叠率来避免超大物体（无法在单幅影像块中完整给出的物体）的识别不完整。

2024-04-14 21:10:55 3129 7