sinat_28694519-CSDN博客

原创 gitnexus vs graphify

随着 Claude Code、Cursor、Codex 等 AI 编程助手的普及，一个新的问题逐渐暴露出来：AI 能写代码，但不一定理解整个代码库。当项目规模达到数十万行代码时，仅靠向量检索（RAG）或文件搜索（grep）已经难以让 AI 建立完整的上下文认知。因此，GitNexus 和 Graphify 这类基于知识图谱（Knowledge Graph）的工具开始受到关注。虽然两者都构建代码知识图谱，但定位和目标并不相同。Graphify 的核心理念是：不要通过相似度理解代码。

2026-05-31 17:19:55 320

原创 Claude动态工作流

ai coding时代，harness engineer越来越受到重视，人们希望ai能够高效准确地进行ai coding。但是不是每个人都可以做好这件事，特别是针对大的软件开发项目，harness engineer更不好做。这两天Claude code推出了dymanic workflow降低了harness的门槛。它可以理解为 Claude Code 的“Agent 编排引擎（Orchestrator）”。

2026-05-30 19:48:16 204

原创 AI Coding 时代的代码知识图谱

ai coding在日常的软件开发过程中，已经很普遍，但是在大项目中ai coding效果并不理想。于是人们开始想着引入知识图谱，将大项目知识图谱化，这样claude code等工具就不用在搜索上面花费大量时间寻找了。未来的AI coding很可能会形成三层结构，第一层：Repository Graph，例如GitNexus。负责：代码结构理解、调用链导航、架构理解。第二层：Change Graph，例如 code-review-graph。负责Diff 分析、Blast Radius、风险传播。

2026-05-23 11:13:16 452

原创 claude code在大项目中的使用

现在人人都开始使用claude code进行ai coding，但是在大项目中，有时会觉得ai出码的效果没那么好，自己反复调试，也很难达到使用效果，最近claude code出了一个指南，可以参考下。npm test跑全量测试输出海量日志context 被污染让测试局部化。Claude Code 在大型项目中的核心思想可以总结为一句话：AI Coding 的关键，不是模型，而是工程化运行环境（Harness）。分层上下文长期记忆动态搜索工程治理企业系统集成。

2026-05-16 11:17:17 408

原创 llm wiki

近两年，大模型（LLM）最重要的应用之一，就是“知识库”。企业希望让 AI 理解内部文档，研究者希望 AI 管理论文，开发者希望 Agent 能拥有长期记忆，于是：RAG（Retrieval-Augmented Generation）成为了当前最主流的知识库方案。但随着 Agent、多轮推理、长期记忆等需求出现，传统 RAG 的问题也越来越明显。2026 年，Andrej Karpathy 提出了一个新的模式：LLM Wiki其核心思想是：不要让 AI 每次都重新检索和理解文档，

2026-05-10 13:31:06 497

原创使用多agent进行ai coding

随着大家使用ai coding的程度越来越深，通过ai聊天的方式进行ai coding，越来难以满足大家的开发需求，主要原因是：1、上下文爆炸2、prompt能力差异大3、模型切换麻烦4、自动化能力差于是，多agent模式协作ai coding就应用而生。ai协作范式，从聊天窗口到多agent编排，是一个大趋势。现在程序员手写代码的地方，不多了，所以尽可能地使用复用的agent，是拉齐大家ai coding能力很好的方式。使用多agent模式，它可以很方便地在后台自动地干活。参考文档。

2026-04-28 15:19:16 446

原创 codex vs claude code

现在没有软件开发工程师不知道codex和claude code的，大家可能都会疑问，到底应该做选型呢，两者各自的优势是什么，今天简要探讨下。codex和claude code都是不错的ai coding工具，可以根据具体的需求进行切换使用，当然如果精通一个工具也是可以的。参考文档。

2026-04-21 08:17:36 378

原创 AI Coding 时代的 TDD：从理念到工程落地

现在大家都在使用ai写代码，手写代码的时代慢慢过去了，但是现在有一个问题，就是如何判断ai写的代码有效，这就离不开测试用例。那么应该先写代码，还是应该先写测试用例呢，今天主要说下TDD。TDD（Test-Driven Development，测试驱动开发）是一种开发方法，其核心流程是：RED：先写测试（且必须失败）GREEN：写最小实现让测试通过REFACTOR：在测试保护下优化代码这里最重要的一点是：测试不是验证代码，而是定义需求（Test = Specification）

2026-04-11 19:33:16 512

原创 harness engineering

现在大家都在使用claude code进行ai coding，当大家觉得ai coding做的不太好的时候，首先想到的是模型能力不行，这合理吗？其实现在模型能力并没有那么重要了，或者说一般大模型都是能够满足coding的需求的，此时需要考虑的就是harness engineering。这里还有一个问题，就是在ai时代，ai输出了大量的代码，人无法逐行理解，如何保证代码的准确性，这也是需要harness engineering。

2026-04-07 20:16:18 272

原创 command vs skills

claude code几乎是软件工程师的开发必备了，但是使用过程中，有时会有一些困惑，比如command和skills好像是类似的，如何进行区分呢，进行简要介绍一下。命令（Commands）和技能（Skills）最初在 Claude Code 中是两个不同的机制，但在版本 2.1.3 中已被统一，现在主要区别是组织结构，而不是行为或能力。命令（Commands）和技能（Skills）的原始差异：Commands通常是单个 Markdown 文件（位于 .claude/commands/）。

2026-04-04 18:06:06 453

原创 claude code上下文

ai时代，使用claude code进行软件开发，几乎是程序员的标配了。但是大家在使用的过程中，会遇到很多问题，总之就是觉得大模型好像没有那么牛，那么就需要了解一下claude code的context window了，也就是上下文。大模型，它是无状态的，也就是说，每次你对它进行问答，它并不会将前后两次问答记录联系起来，对agent来说，如果要保持记忆，就是需要将聊天记录携带着，进行下一次的问答。

2026-03-28 16:53:39 563

原创 claude code知识库

ai coding已经成为程序员的标配，越来越多的程序员已经从写代码角色转变为评审代码角色。但是呢，尽管大模型的能力越来越强，在不完全了解业务背景的情况下，它还是会写错。面对这种场景，人们想到的是增加知识库，那么如何使用知识库呢？RAG的出发点，是让大模型有外挂的知识，避免有些数据没有经过训练回答，回答的效果不好，也可以作为长期记忆。file-based knowledge，是让AI有记忆，按需加载知识，使用起来更方便，可以及时进行更新补充，这种方式是更适合程序员使用的方式。参考文档。

2026-03-22 12:09:28 435

原创 spec vs plan ai coding

大模型的发展日新月异，2026年说是ai agent元年，ai的发展对程序员的影响越来越大，如果不会ai coding感觉就会被慢慢淘汰掉。大模型的能力很强了，但是不意味着，随便写prompt就能有效地解决时间的编码问题，今天就来探讨一下。对于小需求而言，一般的prompt coding就能解决coding问题，对大多数需求而言，一般建议使用plan mode，针对大的项目需求，才建议使用spec编程范式。

2026-03-15 17:02:32 549

原创 how to use claude code

随着ai的发展，ai编程越来越成熟，每家软件公司都在进行ai编程方面的实践。2026年，如果一个程序员还不会使用ai编程，那么他肯定是要落后的。今天以claude code为例，讲解如何使用它进行ai编程。我认为在ai时代，在ai编程时代，如果想要根据需求文档就达到一个很好的编程效果，是比较难的，它需要对文档了解很深，对各方面都很了解，就像项目组里面的一个资深开发一样。它的一个风险就是可控性和安全性。

2026-03-08 14:43:04 330

原创 ai coding中的rules

之前介绍了ai coding相关的skills和hooks，今天再介绍下rules，它们是三个不同的东西。Skills是已知的流程，告诉大模型遇到类似的问题，该怎么做。Hooks 是自动触发，告诉大模型遇到某些情况，需要自动触发一些操作。而Rules是约束（不能乱来），告诉大模型在生产code的时候，需要遵守的一些规范。在ai coding中，cursor和claude code是支持设置Rules的，它预定义的、针对项目、模块或特定场景的约束和指令。

2026-02-25 16:07:57 899

原创 openclaw

大模型时代，ai agent是个爆火的概念，很多公司都声称自己家的产品是ai agent，但是随着最近openclaw的爆火，人们才真正感受到ai agent是什么。OpenClaw 是一款开源的自主 AI 助手软件，属于“AI agent”（智能代理）类别，能够真正执行任务，而不仅仅是回答问题。它最初由奥地利开发者 Peter Steinberger 创建，最早发布于 2025 年11月，OpenClaw 的前身包括 Clawdbot 和 Moltbot。

2026-02-23 10:10:17 1394 2

原创 claude code hooks

不管是什么类型的大模型agent，比如写代码的等等，它会遇到一个问题，不稳定性。Claude Code hooks是用户自定义的 shell 命令，可在 Claude Code 生命周期的不同阶段执行。钩子能对 Claude Code 的行为进行确定性控制，确保特定操作始终发生，而非依赖大型语言模型自行选择是否运行。Claude Code Hooks 是一套基于生命周期事件的自动执行机制，允许开发者在 Claude Code 执行任务的关键节点，插入由系统强制执行的脚本或命令。由操作系统执行。

2026-01-18 15:07:55 1115

原创 human in the loop

大模型时代，agent的使用已经常态化了，不管是AI coding，还是manus这种通用agent。有些场景，人们希望agent可以一直工作，不要经常停下来，直到完成目标，比较常见的是AI coding。而有些场景，人们希望大模型没有把握的时候，能够问一下人类，这种场景就属于human in the loop，今天介绍下。Human-in-the-Loop（HITL）指的是一种混合的 AI 系统架构：不仅让智能代理（Agent）自动执行任务，还在关键节点引入人类参与、监督、干预或最终决策。

2026-01-10 19:14:23 1023

原创 opencode

当前AI coding领域里面，最强的应该是claude code了，但是它并不开源，妨碍了人们对它的理解和使用。当前比较火的，开源的，和claude code很像的是opencode，今天简要介绍下。和claude code类似，本质上其是一个ai agent，用于代码提效。OpenCode Agents 是一套用于构建自主化、多阶段、可恢复（self-healing）的文档生成 / 代码自动化工作流的机制，它基于标记化的 agent 配置文件驱动执行整个流程。核心理念。

2026-01-10 17:10:41 1644

原创 AI Coding LSP

AI coding越来越火，相关的工具也也越来越成熟，程序员好像距离失业越来越近了。但是好的工具还是要学习的，这里介绍下LSP，主要之前有些AI coding工具，让人很困惑，比如仅仅支持某些语言，LSP这个工具就是让AI更好的理解代码的，能够更好地进行AI辅助编程。LSP即（Language Server Protocol），是一种标准化协议，用于：在编辑器（Client）与语言服务器（Server）之间，通过 JSON-RPC 通信，提供语言相关的智能能力。

2026-01-10 14:32:01 1316

原创 Claude agent skills

我们在使用大模型的时候，有些事情是需要固定的流程来处理，我们怎么办呢，一般会创建模板，然后通过命令行或者其他工具，在想使用这个流程的时候，就会触发它。这样通过模板的方式，不是很智能，Claude code提出了一种新的方式agent skills来处理。Agent Skills 是 Claude 生态中用来扩展智能体能力的一种模块化机制：模块化封装专业能力：一个 Skill 是一个文件夹，通常包含一个 SKILL.md（技能说明 + 使用时机），再配合可执行脚本、示例模板或参考资料等内容。

2025-12-21 22:27:18 909

原创 Agent Memory和RAG

在构建智能体 (AI Agent) 的过程中，“记忆系统”是核心能力之一。特别是当 Agent 需要跨会话、跨任务地长期维持对用户偏好、历史经历、目标进展等信息的认知时，长期记忆 (Long-term Memory) 就显得尤为重要。RAG（Retrieval-Augmented Generation）：将外部知识库（如文档、手册、知识库）向量化存储，模型在推理时检索相关片段来辅助生成。这种机制与 Memory 在技术上看似类似 —— 都依赖向量检索、相似度匹配、召回信息，但它们在本质上是不同的。

2025-11-15 17:02:33 1337

原创 RAG已死？

RAG从开始到今天，已经发展了好几年了，它作为一个大模型应用已经广泛落地到很多行业，解决检索和问答的问题。但是随着大模型的发展，大模型的能力越来越强，支持的上下文长度也越来越大，从简单的文本也发展到现在的多模态，人们慢慢觉得是不是RAG已死，今天就探讨下这个问题。不是说RAG已死，而是简单的RAG已死，目前RAG想着更加完善智能的方式进行发展，它慢慢进化为一个完美的agent，帮助客户全方位解决知识问答的难题。

2025-10-26 14:30:52 672

原创 Java事故排查

作为一名软件开发人员，经常会遇到各种各样的事故，一般凭借日志就可以定位到异常问题，然后修复测试，即可验证是否解决，这种较为简单的问题。复杂一点的是，长时间运行出现的问题，比如运行几天之后，程序发生异常，这种不是部署上线后立即发现的，很难排查，但是一般也可以归结为并发性能异常、内存漏洞之类异常。这种情况，日志比较少，需要dump程序的信息，进行分析，以内存泄露为例来说，需要定位到程序中的大对象，然后查看相关代码定位。

2025-10-25 20:54:30 1355 2

原创 APE自动化提示词工程

随着大模型能力越来越强，人们觉得提示词工程没有那么重要了，基于一个prompt规则，手动调试调试，即可完成提示词的工作。然后，针对不同的模型，这样手动改写的prompt，并不一定适用，而且如果有些case效果不好，调试特别麻烦。在要求较高的情况下，提示词像模型超参数一样，也是很有必要进行优化并精心设计的。特别是在特定任务场景，使用很好的prompt来穷尽大模型的能力，很有必要且很有价值。这催生了自动提示词工程APE的兴起。

2025-09-21 12:42:56 1271

原创基于图谱的agent思路

目前市场上大模型agent越来越多，几乎每家公司都在搞，希望通过agent解决实际的业务问题。Agent的重点和难点在于任务的规划，也就是planning，如果任务规划正确，结果大概率正确。其次，每个业务场景对任务出错的容忍度不一样，ToC场景，如果客户觉得不满意，可以再多次使用，或者放弃使用，不会有严重的后果。但是对于医疗、法律、金融等场景，就不太可能接受错误，或者出错会有很大的影响。基于此，可以尝试基于知识图谱的agent。

2025-09-20 16:22:49 1218

原创大模型推理实践

最近两年大模型很火，它在各个行业的应用也在逐渐推进。作为一个开发人员，学会推理部署大模型，是必要的，今天主要说下大模型推理以及部署。本文以qwen2.5-0.5B模型为例，介绍了它的本地调试过程，同时也介绍了它的模型部署过程，介绍过程比较简单。大模型推理过程这里还有很多可以做的，比如有些深度思考模型，思考内容和正文在一个字段的，可以在推理层，将两者分开。此外，如果需要适配其他硬件GPU，还需要对vllm源码进行改造等等。

2025-09-14 16:49:57 446

原创 Case-Based Reasoning用于RAG

在做大模型应用RAG的时候，会发现一种特殊的场景，就是基于之前的case进行回答，比如法律咨询、医疗诊断等等。这种情况的问答，需要有强有力的case支持才行，有了case支持，大模型回答会更加准确。CBR这个概念已经很久了，它是一种人工智能推理方法，它的基本思想是：遇到新问题时，先回忆相似的过去案例，再基于这些案例进行调整，得到新问题的解答。Retrieve（检索）：在案例库中找到与当前问题最相似的案例。Reuse（复用）：借鉴案例的解决方案来应对当前问题。

2025-09-13 18:48:52 884

原创 CodeAct范式

在大模型agent领域，比较常见的是ReAct范式，它的核心思想是把推理（Reasoning）和行动（Acting，通常是工具调用）结合起来。LLM 一边输出“思考过程”，一边决定调用什么工具或采取什么行动，再根据观察结果继续推理。而CodeAct的核心思想是让 LLM 输出可执行代码（而不是自然语言的行动指令），然后在安全环境里执行代码，执行结果再反馈给模型，进入下一轮。虽然CodeAct还有很多问题需要解决，但是随着大模型编程的能力越来越强，这些问题会大大缓解。

2025-09-13 16:08:50 933

原创推理加速prefix cache

在大模型应用中，常会遇到的问题，就是大模型慢。这里一般是受限于GPU资源问题。大模型慢，一般有两种情况，一个是首token慢，二是token流速慢。第一种情况，更难于让人接受，所以优化大模型首token时间，很有必要。Prefix Caching的核心目标是：• 当多个请求共享同样的 prompt（或者部分前缀相同），避免重复计算前缀的 attention key/value (KV 缓存)。• 通过复用 KV cache，大幅提升吞吐量和降低延迟。

2025-09-12 09:07:57 1170

原创大模型推理加速

目前各个行业都在接入大模型，借助大模型的能力优化自己的业务。但是有一个问题，一直是需要面对的，就是速度，目前而言，大模型的首token速度仍是很慢，获取输出之前，需要等待几秒。这对实时性要求很高的系统而言，是难以接受的。一般而言，优化推理主要从以下4个方面：1、模型压缩技术（如量化和剪枝）2、高效注意力机制3、硬件加速策略4、改进算法以提高解码速度以下针对一些具体的方法进行说明。上面提到了各种模型推理优化策略，具体到某个场景，需要首先定位到底是显存限制、计算瓶颈、还是服务层延迟。

2025-08-23 14:05:25 1275

原创 AI服务器介绍

现在大模型依旧如火如荼，大模型训练和推理都少不了AI服务器，常见的就是英伟达GPU服务器，比如A100等。国产AI服务器也有很多，比如华为昇腾，这些服务器的算力如何，和英伟达的对比怎么样，作为大模型应用开发人员，需要有个了解，这样对部署的大模型性能有个大致判断。作为一个大模型应用工程师，了解国产AI服务器的指标，有利于掌握AI服务器的选型，也有利于在部署模型时，清楚模型运行的性能，知道优化模型性能的方向。

2025-08-22 19:01:44 5483 1

原创 Agent中的memory

众所周知，大模型是无状态的。但是基于大模型的agent一般是有状态的，也就是它有记忆功能。在AI Agent框架中，Memory机制是核心组件之一，它赋予Agent持续学习和上下文感知的能力，使其能够像人类一样基于历史交互进行决策。类似人脑一样，memory机制是agent智能化的基石。当前，memory机制也有一些挑战，比如记忆泄露（未清理的旧数据可能导致存储膨胀（需设置TTL））、隐私合规（GDPR要求用户数据可删除）等。参考文档。

2025-08-16 19:43:11 1257

原创 AI应用安全 - Prompt注入攻击

随着大模型的爆火，各行各业都在使用大模型进行智能化改造。但是如何做一个可靠的大模型应用，就需要考虑各种安全问题。本文主要介绍一种常见的安全问题，即prompt注入攻击，并介绍一些防范手段。Prompt Injection Attack(提示注入攻击)是针对大型语言模型(LLM)的一种新兴安全威胁，攻击者通过精心构造的输入提示(prompt)来操纵模型行为，使其产生非预期输出或执行恶意操作。它主要包括两种注入方式，一是直接注入，而是间接注入。

2025-08-16 17:13:44 1860

原创 Transformer浅说

近两年大模型爆火，大模型的背后是transformer架构，transformer成为家喻户晓的词，人人都知道它，但是想要详细讲清楚，需要专业的算法人员来讲解，网上也有很多资料，我就不班门弄斧了。作为一个经常使用大模型的人，也需要一点知识，来认识它，这样才能更好的使用它。Transformer 是一种基于自注意力机制（Self-Attention）的深度学习架构，由Google团队在2017年的论文《Attention Is All You Need》中提出。

2025-08-16 14:35:44 706

原创浏览器mcp工具browser-use

大模型仍在以前所未有的速度进行发展，大模型的应用也在迅速发展，目前大模型使用mcp工具越来越多，比较特殊的一种是让大模型操作浏览器的mcp，因为目前人们接触互联网大多通过浏览器的方式，下面我们来介绍一下browser-use。browser-use 是一个开源的 Python 库，旨在让大型语言模型（LLM）直接控制真实浏览器，实现网页自动化任务。

2025-07-26 09:41:26 1121

原创大模型推理框架介绍

最近大模型很火，但是能够训练大模型的，一般是头部大厂。相较于大模型训练而言，大模型推理则很多公司都在做，能够很好地进行大模型推理，在成本优化、性能提升、硬件适配、吞吐提高等多个方面很有意义。本文简要介绍两种推理框架Hugging Face Transformers和vllm，并对其简单对比。两种推理框架面向的侧重点不同，部署一般使用vllm，而开发调试使用hugging face较为方便。参考文档。

2025-07-14 08:59:13 990

原创大模型微调

大模型持续火热，对社会的改造也正在持续不断地发生，通过大模型的微调，将其应用到不同的领域，也正在逐步推进。不管你是不是做大模型微调的，我觉得都需要了解一些大模型微调相关的知识，以下从三个方面进行介绍，分别是微调数据、微调工具和微调方式。大模型微调是一项技术性强但也极具性价比的任务。要把微调做好，不仅仅是“跑通训练脚本”，更需要设计良好的目标、数据、策略和评估机制。

2025-07-06 20:06:30 1295

原创 Workflow vs Agent

大模型应用有两种范式，workflow和agent，最近大模型agent爆火，似乎大模型应用不谈agent都不好意思，但是实际落地并不如此，agent因为不可控，结果不可预知等缺点，并没有广泛地应用于大模型应用中，本文介绍workflow和agent的优缺点，并重点推荐这两种混合模式应用于生产中。工作流架构（Workflow）是指通过预定义的步骤序列将大模型（LLM）与外部工具串联起来，形成“流水线”式的任务处理流程。

2025-06-17 19:52:23 1063

原创 Deep Research实践

上文介绍了Deep Research，它在实际应用中具有很大的价值，而且说明它需要agent。其实，因为agent在操作中具有很大的不稳定性，很多情况使用workflow来处理deep research。本文介绍一种基于langgraph来实现deep research的方案，参考文章。整体架构图如下，首先看report structure generator这个模块，它其实和chatgpt的深度研究类似，用户提出问题后，首先和用户进行交互，希望用户提出更具体的建议，缩短研究范围。

2025-06-08 20:40:18 1044

空空如也

空空如也