自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(72)
  • 收藏
  • 关注

原创 gitnexus vs graphify

随着 Claude Code、Cursor、Codex 等 AI 编程助手的普及,一个新的问题逐渐暴露出来:AI 能写代码,但不一定理解整个代码库。当项目规模达到数十万行代码时,仅靠向量检索(RAG)或文件搜索(grep)已经难以让 AI 建立完整的上下文认知。因此,GitNexus 和 Graphify 这类基于知识图谱(Knowledge Graph)的工具开始受到关注。虽然两者都构建代码知识图谱,但定位和目标并不相同。Graphify 的核心理念是:不要通过相似度理解代码。

2026-05-31 17:19:55 320

原创 Claude动态工作流

ai coding时代,harness engineer越来越受到重视,人们希望ai能够高效准确地进行ai coding。但是不是每个人都可以做好这件事,特别是针对大的软件开发项目,harness engineer更不好做。这两天Claude code推出了dymanic workflow降低了harness的门槛。它可以理解为 Claude Code 的“Agent 编排引擎(Orchestrator)”。

2026-05-30 19:48:16 204

原创 AI Coding 时代的代码知识图谱

ai coding在日常的软件开发过程中,已经很普遍,但是在大项目中ai coding效果并不理想。于是人们开始想着引入知识图谱,将大项目知识图谱化,这样claude code等工具就不用在搜索上面花费大量时间寻找了。未来的AI coding很可能会形成三层结构,第一层:Repository Graph,例如GitNexus。负责:代码结构理解、调用链导航、架构理解。第二层:Change Graph,例如 code-review-graph。负责Diff 分析、Blast Radius、风险传播。

2026-05-23 11:13:16 452

原创 claude code在大项目中的使用

现在人人都开始使用claude code进行ai coding,但是在大项目中,有时会觉得ai出码的效果没那么好,自己反复调试,也很难达到使用效果,最近claude code出了一个指南,可以参考下。npm test跑全量测试输出海量日志context 被污染让测试局部化。Claude Code 在大型项目中的核心思想可以总结为一句话:AI Coding 的关键,不是模型,而是工程化运行环境(Harness)。分层上下文长期记忆动态搜索工程治理企业系统集成。

2026-05-16 11:17:17 408

原创 llm wiki

近两年,大模型(LLM)最重要的应用之一,就是“知识库”。企业希望让 AI 理解内部文档,研究者希望 AI 管理论文,开发者希望 Agent 能拥有长期记忆,于是:RAG(Retrieval-Augmented Generation)成为了当前最主流的知识库方案。但随着 Agent、多轮推理、长期记忆等需求出现,传统 RAG 的问题也越来越明显。2026 年,Andrej Karpathy 提出了一个新的模式:LLM Wiki其核心思想是:不要让 AI 每次都重新检索和理解文档,

2026-05-10 13:31:06 497

原创 使用多agent进行ai coding

随着大家使用ai coding的程度越来越深,通过ai聊天的方式进行ai coding,越来难以满足大家的开发需求,主要原因是:1、上下文爆炸2、prompt能力差异大3、模型切换麻烦4、自动化能力差于是,多agent模式协作ai coding就应用而生。ai协作范式,从聊天窗口到多agent编排,是一个大趋势。现在程序员手写代码的地方,不多了,所以尽可能地使用复用的agent,是拉齐大家ai coding能力很好的方式。使用多agent模式,它可以很方便地在后台自动地干活。参考文档。

2026-04-28 15:19:16 446

原创 codex vs claude code

现在没有软件开发工程师不知道codex和claude code的,大家可能都会疑问,到底应该做选型呢,两者各自的优势是什么,今天简要探讨下。codex和claude code都是不错的ai coding工具,可以根据具体的需求进行切换使用,当然如果精通一个工具也是可以的。参考文档。

2026-04-21 08:17:36 378

原创 AI Coding 时代的 TDD:从理念到工程落地

现在大家都在使用ai写代码,手写代码的时代慢慢过去了,但是现在有一个问题,就是如何判断ai写的代码有效,这就离不开测试用例。那么应该先写代码,还是应该先写测试用例呢,今天主要说下TDD。TDD(Test-Driven Development,测试驱动开发)是一种开发方法,其核心流程是:RED:先写测试(且必须失败)GREEN:写最小实现让测试通过REFACTOR:在测试保护下优化代码这里最重要的一点是:测试不是验证代码,而是定义需求(Test = Specification)

2026-04-11 19:33:16 512

原创 harness engineering

现在大家都在使用claude code进行ai coding,当大家觉得ai coding做的不太好的时候,首先想到的是模型能力不行,这合理吗?其实现在模型能力并没有那么重要了,或者说一般大模型都是能够满足coding的需求的,此时需要考虑的就是harness engineering。这里还有一个问题,就是在ai时代,ai输出了大量的代码,人无法逐行理解,如何保证代码的准确性,这也是需要harness engineering。

2026-04-07 20:16:18 272

原创 command vs skills

claude code几乎是软件工程师的开发必备了,但是使用过程中,有时会有一些困惑,比如command和skills好像是类似的,如何进行区分呢,进行简要介绍一下。命令(Commands)和技能(Skills)最初在 Claude Code 中是两个不同的机制,但在版本 2.1.3 中已被统一,现在主要区别是组织结构,而不是行为或能力。命令(Commands)和技能(Skills)的原始差异:Commands通常是单个 Markdown 文件(位于 .claude/commands/)。

2026-04-04 18:06:06 453

原创 claude code上下文

ai时代,使用claude code进行软件开发,几乎是程序员的标配了。但是大家在使用的过程中,会遇到很多问题,总之就是觉得大模型好像没有那么牛,那么就需要了解一下claude code的context window了,也就是上下文。大模型,它是无状态的,也就是说,每次你对它进行问答,它并不会将前后两次问答记录联系起来,对agent来说,如果要保持记忆,就是需要将聊天记录携带着,进行下一次的问答。

2026-03-28 16:53:39 563

原创 claude code知识库

ai coding已经成为程序员的标配,越来越多的程序员已经从写代码角色转变为评审代码角色。但是呢,尽管大模型的能力越来越强,在不完全了解业务背景的情况下,它还是会写错。面对这种场景,人们想到的是增加知识库,那么如何使用知识库呢?RAG的出发点,是让大模型有外挂的知识,避免有些数据没有经过训练回答,回答的效果不好,也可以作为长期记忆。file-based knowledge,是让AI有记忆,按需加载知识,使用起来更方便,可以及时进行更新补充,这种方式是更适合程序员使用的方式。参考文档。

2026-03-22 12:09:28 435

原创 spec vs plan ai coding

大模型的发展日新月异,2026年说是ai agent元年,ai的发展对程序员的影响越来越大,如果不会ai coding感觉就会被慢慢淘汰掉。大模型的能力很强了,但是不意味着,随便写prompt就能有效地解决时间的编码问题,今天就来探讨一下。对于小需求而言,一般的prompt coding就能解决coding问题,对大多数需求而言,一般建议使用plan mode,针对大的项目需求,才建议使用spec编程范式。

2026-03-15 17:02:32 549

原创 how to use claude code

随着ai的发展,ai编程越来越成熟,每家软件公司都在进行ai编程方面的实践。2026年,如果一个程序员还不会使用ai编程,那么他肯定是要落后的。今天以claude code为例,讲解如何使用它进行ai编程。我认为在ai时代,在ai编程时代,如果想要根据需求文档就达到一个很好的编程效果,是比较难的,它需要对文档了解很深,对各方面都很了解,就像项目组里面的一个资深开发一样。它的一个风险就是可控性和安全性。

2026-03-08 14:43:04 330

原创 ai coding中的rules

之前介绍了ai coding相关的skills和hooks,今天再介绍下rules,它们是三个不同的东西。Skills是已知的流程,告诉大模型遇到类似的问题,该怎么做。Hooks 是自动触发,告诉大模型遇到某些情况,需要自动触发一些操作。而Rules是约束(不能乱来),告诉大模型在生产code的时候,需要遵守的一些规范。在ai coding中,cursor和claude code是支持设置Rules的,它预定义的、针对项目、模块或特定场景的约束和指令。

2026-02-25 16:07:57 899

原创 openclaw

大模型时代,ai agent是个爆火的概念,很多公司都声称自己家的产品是ai agent,但是随着最近openclaw的爆火,人们才真正感受到ai agent是什么。OpenClaw 是一款开源的自主 AI 助手软件,属于“AI agent”(智能代理)类别,能够真正执行任务,而不仅仅是回答问题。它最初由奥地利开发者 Peter Steinberger 创建,最早发布于 2025 年11月,OpenClaw 的前身包括 Clawdbot 和 Moltbot。

2026-02-23 10:10:17 1394 2

原创 claude code hooks

不管是什么类型的大模型agent,比如写代码的等等,它会遇到一个问题,不稳定性。Claude Code hooks是用户自定义的 shell 命令,可在 Claude Code 生命周期的不同阶段执行。钩子能对 Claude Code 的行为进行确定性控制,确保特定操作始终发生,而非依赖大型语言模型自行选择是否运行。Claude Code Hooks 是一套基于生命周期事件的自动执行机制,允许开发者在 Claude Code 执行任务的关键节点,插入由系统强制执行的脚本或命令。由操作系统执行。

2026-01-18 15:07:55 1115

原创 human in the loop

大模型时代,agent的使用已经常态化了,不管是AI coding,还是manus这种通用agent。有些场景,人们希望agent可以一直工作,不要经常停下来,直到完成目标,比较常见的是AI coding。而有些场景,人们希望大模型没有把握的时候,能够问一下人类,这种场景就属于human in the loop,今天介绍下。Human-in-the-Loop(HITL) 指的是一种混合的 AI 系统架构:不仅让智能代理(Agent)自动执行任务,还在关键节点引入人类参与、监督、干预或最终决策。

2026-01-10 19:14:23 1023

原创 opencode

当前AI coding领域里面,最强的应该是claude code了,但是它并不开源,妨碍了人们对它的理解和使用。当前比较火的,开源的,和claude code很像的是opencode,今天简要介绍下。和claude code类似,本质上其是一个ai agent,用于代码提效。OpenCode Agents 是一套用于构建自主化、多阶段、可恢复(self-healing)的文档生成 / 代码自动化工作流的机制,它基于标记化的 agent 配置文件驱动执行整个流程。核心理念。

2026-01-10 17:10:41 1644

原创 AI Coding LSP

AI coding越来越火,相关的工具也也越来越成熟,程序员好像距离失业越来越近了。但是好的工具还是要学习的,这里介绍下LSP,主要之前有些AI coding工具,让人很困惑,比如仅仅支持某些语言,LSP这个工具就是让AI更好的理解代码的,能够更好地进行AI辅助编程。LSP即(Language Server Protocol),是一种标准化协议,用于:在 编辑器(Client) 与 语言服务器(Server) 之间,通过 JSON-RPC 通信,提供语言相关的智能能力。

2026-01-10 14:32:01 1316

原创 Claude agent skills

我们在使用大模型的时候,有些事情是需要固定的流程来处理,我们怎么办呢,一般会创建模板,然后通过命令行或者其他工具,在想使用这个流程的时候,就会触发它。这样通过模板的方式,不是很智能,Claude code提出了一种新的方式agent skills来处理。Agent Skills 是 Claude 生态中用来扩展智能体能力的一种模块化机制:模块化封装专业能力:一个 Skill 是一个文件夹,通常包含一个 SKILL.md(技能说明 + 使用时机),再配合可执行脚本、示例模板或参考资料等内容。

2025-12-21 22:27:18 909

原创 Agent Memory和RAG

在构建智能体 (AI Agent) 的过程中,“记忆系统”是核心能力之一。特别是当 Agent 需要跨会话、跨任务地长期维持对用户偏好、历史经历、目标进展等信息的认知时,长期记忆 (Long-term Memory) 就显得尤为重要。RAG(Retrieval-Augmented Generation):将外部知识库(如文档、手册、知识库)向量化存储,模型在推理时检索相关片段来辅助生成。这种机制与 Memory 在技术上看似类似 —— 都依赖向量检索、相似度匹配、召回信息,但它们在本质上是不同的。

2025-11-15 17:02:33 1337

原创 RAG已死?

RAG从开始到今天,已经发展了好几年了,它作为一个大模型应用已经广泛落地到很多行业,解决检索和问答的问题。但是随着大模型的发展,大模型的能力越来越强,支持的上下文长度也越来越大,从简单的文本也发展到现在的多模态,人们慢慢觉得是不是RAG已死,今天就探讨下这个问题。不是说RAG已死,而是简单的RAG已死,目前RAG想着更加完善智能的方式进行发展,它慢慢进化为一个完美的agent,帮助客户全方位解决知识问答的难题。

2025-10-26 14:30:52 672

原创 Java事故排查

作为一名软件开发人员,经常会遇到各种各样的事故,一般凭借日志就可以定位到异常问题,然后修复测试,即可验证是否解决,这种较为简单的问题。复杂一点的是,长时间运行出现的问题,比如运行几天之后,程序发生异常,这种不是部署上线后立即发现的,很难排查,但是一般也可以归结为并发性能异常、内存漏洞之类异常。这种情况,日志比较少,需要dump程序的信息,进行分析,以内存泄露为例来说,需要定位到程序中的大对象,然后查看相关代码定位。

2025-10-25 20:54:30 1355 2

原创 APE自动化提示词工程

随着大模型能力越来越强,人们觉得提示词工程没有那么重要了,基于一个prompt规则,手动调试调试,即可完成提示词的工作。然后,针对不同的模型,这样手动改写的prompt,并不一定适用,而且如果有些case效果不好,调试特别麻烦。在要求较高的情况下,提示词像模型超参数一样,也是很有必要进行优化并精心设计的。特别是在特定任务场景,使用很好的prompt来穷尽大模型的能力,很有必要且很有价值。这催生了自动提示词工程APE的兴起。

2025-09-21 12:42:56 1271

原创 基于图谱的agent思路

目前市场上大模型agent越来越多,几乎每家公司都在搞,希望通过agent解决实际的业务问题。Agent的重点和难点在于任务的规划,也就是planning,如果任务规划正确,结果大概率正确。其次,每个业务场景对任务出错的容忍度不一样,ToC场景,如果客户觉得不满意,可以再多次使用,或者放弃使用,不会有严重的后果。但是对于医疗、法律、金融等场景,就不太可能接受错误,或者出错会有很大的影响。基于此,可以尝试基于知识图谱的agent。

2025-09-20 16:22:49 1218

原创 大模型推理实践

最近两年大模型很火,它在各个行业的应用也在逐渐推进。作为一个开发人员,学会推理部署大模型,是必要的,今天主要说下大模型推理以及部署。本文以qwen2.5-0.5B模型为例,介绍了它的本地调试过程,同时也介绍了它的模型部署过程,介绍过程比较简单。大模型推理过程这里还有很多可以做的,比如有些深度思考模型,思考内容和正文在一个字段的,可以在推理层,将两者分开。此外,如果需要适配其他硬件GPU,还需要对vllm源码进行改造等等。

2025-09-14 16:49:57 446

原创 Case-Based Reasoning用于RAG

在做大模型应用RAG的时候,会发现一种特殊的场景,就是基于之前的case进行回答,比如法律咨询、医疗诊断等等。这种情况的问答,需要有强有力的case支持才行,有了case支持,大模型回答会更加准确。CBR这个概念已经很久了,它是一种人工智能推理方法,它的基本思想是:遇到新问题时,先回忆相似的过去案例,再基于这些案例进行调整,得到新问题的解答。Retrieve(检索):在案例库中找到与当前问题最相似的案例。Reuse(复用):借鉴案例的解决方案来应对当前问题。

2025-09-13 18:48:52 884

原创 CodeAct范式

在大模型agent领域,比较常见的是ReAct范式,它的核心思想是把推理(Reasoning)和行动(Acting,通常是工具调用)结合起来。LLM 一边输出“思考过程”,一边决定调用什么工具或采取什么行动,再根据观察结果继续推理。而CodeAct的核心思想是让 LLM 输出 可执行代码(而不是自然语言的行动指令),然后在安全环境里执行代码,执行结果再反馈给模型,进入下一轮。虽然CodeAct还有很多问题需要解决,但是随着大模型编程的能力越来越强,这些问题会大大缓解。

2025-09-13 16:08:50 933

原创 推理加速prefix cache

在大模型应用中,常会遇到的问题,就是大模型慢。这里一般是受限于GPU资源问题。大模型慢,一般有两种情况,一个是首token慢,二是token流速慢。第一种情况,更难于让人接受,所以优化大模型首token时间,很有必要。Prefix Caching的核心目标是:• 当多个请求共享同样的 prompt(或者部分前缀相同),避免重复计算前缀的 attention key/value (KV 缓存)。• 通过复用 KV cache,大幅提升吞吐量和降低延迟。

2025-09-12 09:07:57 1170

原创 大模型推理加速

目前各个行业都在接入大模型,借助大模型的能力优化自己的业务。但是有一个问题,一直是需要面对的,就是速度,目前而言,大模型的首token速度仍是很慢,获取输出之前,需要等待几秒。这对实时性要求很高的系统而言,是难以接受的。一般而言,优化推理主要从以下4个方面:1、模型压缩技术(如量化和剪枝)2、高效注意力机制3、硬件加速策略4、改进算法以提高解码速度以下针对一些具体的方法进行说明。上面提到了各种模型推理优化策略,具体到某个场景,需要首先定位到底是 显存限制、计算瓶颈、还是服务层延迟。

2025-08-23 14:05:25 1275

原创 AI服务器介绍

现在大模型依旧如火如荼,大模型训练和推理都少不了AI服务器,常见的就是英伟达GPU服务器,比如A100等。国产AI服务器也有很多,比如华为昇腾,这些服务器的算力如何,和英伟达的对比怎么样,作为大模型应用开发人员,需要有个了解,这样对部署的大模型性能有个大致判断。作为一个大模型应用工程师,了解国产AI服务器的指标,有利于掌握AI服务器的选型,也有利于在部署模型时,清楚模型运行的性能,知道优化模型性能的方向。

2025-08-22 19:01:44 5483 1

原创 Agent中的memory

众所周知,大模型是无状态的。但是基于大模型的agent一般是有状态的,也就是它有记忆功能。在AI Agent框架中,Memory机制是核心组件之一,它赋予Agent持续学习和上下文感知的能力,使其能够像人类一样基于历史交互进行决策。类似人脑一样,memory机制是agent智能化的基石。当前,memory机制也有一些挑战,比如记忆泄露(未清理的旧数据可能导致存储膨胀(需设置TTL))、隐私合规(GDPR要求用户数据可删除)等。参考文档。

2025-08-16 19:43:11 1257

原创 AI应用安全 - Prompt注入攻击

随着大模型的爆火,各行各业都在使用大模型进行智能化改造。但是如何做一个可靠的大模型应用,就需要考虑各种安全问题。本文主要介绍一种常见的安全问题,即prompt注入攻击,并介绍一些防范手段。Prompt Injection Attack(提示注入攻击)是针对大型语言模型(LLM)的一种新兴安全威胁,攻击者通过精心构造的输入提示(prompt)来操纵模型行为,使其产生非预期输出或执行恶意操作。它主要包括两种注入方式,一是直接注入,而是间接注入。

2025-08-16 17:13:44 1860

原创 Transformer浅说

近两年大模型爆火,大模型的背后是transformer架构,transformer成为家喻户晓的词,人人都知道它,但是想要详细讲清楚,需要专业的算法人员来讲解,网上也有很多资料,我就不班门弄斧了。作为一个经常使用大模型的人,也需要一点知识,来认识它,这样才能更好的使用它。Transformer 是一种基于自注意力机制(Self-Attention)的深度学习架构,由Google团队在2017年的论文《Attention Is All You Need》中提出。

2025-08-16 14:35:44 706

原创 浏览器mcp工具browser-use

大模型仍在以前所未有的速度进行发展,大模型的应用也在迅速发展,目前大模型使用mcp工具越来越多,比较特殊的一种是让大模型操作浏览器的mcp,因为目前人们接触互联网大多通过浏览器的方式,下面我们来介绍一下browser-use。browser-use 是一个开源的 Python 库,旨在让大型语言模型(LLM)直接控制真实浏览器,实现网页自动化任务。

2025-07-26 09:41:26 1121

原创 大模型推理框架介绍

最近大模型很火,但是能够训练大模型的,一般是头部大厂。相较于大模型训练而言,大模型推理则很多公司都在做,能够很好地进行大模型推理,在成本优化、性能提升、硬件适配、吞吐提高等多个方面很有意义。本文简要介绍两种推理框架Hugging Face Transformers和vllm,并对其简单对比。两种推理框架面向的侧重点不同,部署一般使用vllm,而开发调试使用hugging face较为方便。参考文档。

2025-07-14 08:59:13 990

原创 大模型微调

大模型持续火热,对社会的改造也正在持续不断地发生,通过大模型的微调,将其应用到不同的领域,也正在逐步推进。不管你是不是做大模型微调的,我觉得都需要了解一些大模型微调相关的知识,以下从三个方面进行介绍,分别是微调数据、微调工具和微调方式。大模型微调是一项技术性强但也极具性价比的任务。要把微调做好,不仅仅是“跑通训练脚本”,更需要设计良好的目标、数据、策略和评估机制。

2025-07-06 20:06:30 1295

原创 Workflow vs Agent

大模型应用有两种范式,workflow和agent,最近大模型agent爆火,似乎大模型应用不谈agent都不好意思,但是实际落地并不如此,agent因为不可控,结果不可预知等缺点,并没有广泛地应用于大模型应用中,本文介绍workflow和agent的优缺点,并重点推荐这两种混合模式应用于生产中。工作流架构(Workflow)是指通过预定义的步骤序列将大模型(LLM)与外部工具串联起来,形成“流水线”式的任务处理流程。

2025-06-17 19:52:23 1063

原创 Deep Research实践

上文介绍了Deep Research,它在实际应用中具有很大的价值,而且说明它需要agent。其实,因为agent在操作中具有很大的不稳定性,很多情况使用workflow来处理deep research。本文介绍一种基于langgraph来实现deep research的方案,参考文章。整体架构图如下,首先看report structure generator这个模块,它其实和chatgpt的深度研究类似,用户提出问题后,首先和用户进行交互,希望用户提出更具体的建议,缩短研究范围。

2025-06-08 20:40:18 1044

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除