自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2216)
  • 收藏
  • 关注

原创 一篇文章讲清楚 AI Agent 的核心概念:从 Token、Skill、RAG 到 MCP、SDD 和 Harness 工程

Agent是以 LLM 为核心,具备规划(Planning)、记忆(Memory)和工具调用(Tool Use)能力,能够自主拆解复杂任务、循环执行、感知反馈并持续推进任务直到完成的计算实体,实现从“文本生成”到“任务自主执行”,不再只是被动响应指令,而是能像人类员工一样,自主实现任务闭环。

2026-05-19 20:12:43 83

原创 AI Agent时代创业:最好的机会就是构建垂直领域Agent

这两年AI圈讨论最多的话题,就是从大模型到Agent(智能体)的进化。当大模型基础设施已经逐步完善,创业者们都在问:下一波机会在哪里?

2026-05-19 20:10:26 96

原创 Huashu Design:Agent 的 原生 HTML 设计 Skill

Huashu Design 是一个面向 AI 编程 Agent 的 **原生 HTML 设计 Skill**,让你只需在 Claude Code(或其他兼容 Agent)里打一句话,3 到 30 分钟内就能拿到一份**可交付的专业设计成品\*\*。

2026-05-19 20:09:23 83

原创 NUS 提出 SkillGraph:让多模态多智能体边协作边进化

本文提出 SkillGraph,将动态通信拓扑与自进化 Skill Bank 闭环耦合,让 VMAS 根据图像、问题和当前技能自动组织协作。在四个多模态基准、五种 MAS 结构和四类 VLM 上均稳定提升,最高平均提升约 3.0%。

2026-05-18 19:33:28 265

原创 企业自建内部知识库,最容易死在这8个问题上(管理+技术双维度)

很多企业想做内部知识库:把经验、图纸、方案、流程、故障案例沉淀下来,避免人员流失就丢技术、避免重复踩坑。但真正落地后,90%都变成了“僵尸文档库”——要么没人用、没人更,要么技术层面跟不上需求,AI模式形同虚设。

2026-05-18 19:32:09 354

原创 架构天花板 :基于LangGraph的生产级 Harness 执行层 Sub-Agent 深度拆解,解密 子Agent如何才能是 达到工业级的 性能

相信做过 Agent 开发的小伙伴都懂这种痛: **一个 AI Agent 硬扛所有步骤,从数据爬取、清洗到校验、输出,跑一次要40多分钟,**中间还经常因为上下文溢出断思路,重试一次又是大半天。

2026-05-18 19:26:42 261

原创 从 Computer Use到 Datacenter Use:如何让 AI Agent 像调用函数一样驱动数据中心?

本文整理自 QCon 全球软件开发大会·2026(北京站)明星讲师蚂蚁集团操作系统研发经理谈鉴锋、高级开发工程师周天昱的演讲分享《From Computer Use to Datacenter Use for AI》。

2026-05-17 20:22:28 347

原创 RAG 既死,什么才是 Ground Truth?

很多人以为,让 Agent 理解代码,就是给它更多源码:更大的 context window,更好的 embedding,更聪明的 RAG,更细的 AST index。我以前也差点信了。

2026-05-17 20:21:07 336

原创 深度拆解:Hermes 的多 Agent逻辑

今天想从底层机制出发,来拆解 Hermes 的多 Agents 逻辑。Hermes 的多 Agents 是一套边界清晰的三层架构:第一层是执行内核:AIAgent。无论外部接入多少种形态的终端,最终负责思考和工具调度的,都是这套底层的运行核心。

2026-05-17 20:20:01 377

原创 ICML 2026|武汉大学 & 悉尼大学: 多模态模型越练越会想?它可能只是越练越会“猜”

多模态模型做题时,最容易骗过人的,不是答错,而是**答案对了,理由却是编的**。比如医学影像问答里,模型最后选对了“肺部不健康”,但中间推理却说“肺野清晰、没有异常”。如果只看最终选项,样本会被当成好数据;如果把推理链读完,就会发现它根本没有认真看图,只是靠语言经验撞上了答案。

2026-05-16 21:00:35 380

原创 检索系统设计:真正决定 RAG 成败的一环

很多人在优化 RAG 时,会优先考虑:* 换更强的模型* 调 Prompt* 加更多数据

2026-05-16 20:59:33 379

原创 来了,首篇Agent Skills系统性综述!

你让 AI Agent 帮你写一段代码,它做得很好。第二天你让它做一件几乎一样的事,它又从头推理一遍——卡住、报错、重试。就好像它完全没做过上一次。

2026-05-16 20:58:25 416

原创 小红书二面:Function Calling 的可靠性怎么保证?

Function Calling 大概是 LLM 应用开发中最拧巴的一个环节——你让一个概率模型去做一件需要百分之百精确的事。模型生成的自然语言可以有措辞差异、可以有风格变化,用户多半不会在意,但一个工具调用的参数少了一个字段、日期格式从 `YYYY-MM-DD` 变成了 `DD/MM/YYYY`、或者枚举值 `pending` 拼成了 `Pending`,下游系统直接报错,整个 Agent 流程就断了。这就是 Function Calling 可靠性问题的本质:**一个模糊的系统在试图产出精确的结果。

2026-05-15 20:30:30 362

原创 浙大提出 MedMemoryBench:医疗智能体记忆的压力测试

本文提出 MedMemoryBench,用流式评测检验个性化医疗智能体记忆。其构建约 2,000 个会话、16,000 轮交互和 1,939 个问题,揭示现有记忆方法在复杂推理与噪声累积下明显退化。

2026-05-15 20:28:48 325

原创 MarkItDown 转 PDF 表格总乱码?这 5 步让 OCR 精度从 60% 升到 95%

转了 100 份扫描件,表格全乱了?你的 MarkItDown 可能少装了一个插件。MarkItDown 的 OCR 不是传统 Tesseract.

2026-05-15 20:27:34 357

原创 LLM 语义路由全解析:用模型本身做意图分类,告别关键词硬匹配的三种陷阱

你做过 FAQ 机器人或者客服 Bot 吗?多半会遇到这个痛苦时刻:* 用户问"帮我退款",关键词匹配到"款",路由进了财务查询链,结果答了一堆账单* 用户问"我的快递在哪",里面有"哪"字,被匹配进了通用知识库,答出来一段配送政策

2026-05-14 19:17:17 375

原创 RAGFlow管开源,KnowFlow管生产:企业级RAG落地的完整拼图

某省级政务云平台的技术负责人老周,在选 RAG 底座时遇到了一个现实问题:他们有三十万份历史档案扫描件,涵盖1980年代至今的公文、表格、审批表单,格式极其混乱。用户查询时需要精确引用原文,审计部门要求每一句 AI 回答都能回溯到「哪份档案、第几页、哪一段」。

2026-05-14 19:14:09 367

原创 技术 Leader:“还在 Vibe Coding 呢?就不能让 Agent 自己干?”我微微一笑:“我正在做这样一个Agent CLI 呢”,领导:“这么厉害?”

昨天又高强度肝了一天的 PaiCLI Agent,把整个交互体验又提升了一个档次。

2026-05-14 19:11:18 365

原创 腾讯面试官问:Chunk 到底该怎么切?

别再背 500 tokens + overlap 50:它可能把制度条款切碎,让召回片段从 0.83 掉到 0.41。这一课承接上一课"Embedding 怎么评估",给出 Chunk 切分的真正判断框架。

2026-05-13 19:15:02 385

原创 快手二面:大模型的 Function Call 能力是怎么训练出来的?

面试官:详细说说大模型的 Function Call 能力是怎么训练出来的?

2026-05-13 19:13:53 345

原创 一文搞懂Agent Skill的原理与设计规范

最近 Skill 这个词在 AI 圈里出现的频率,越来越高。你打开 Claude Code、Cursor、Codex,甚至 Gemini CLI,到处都在聊「Agent Skill」。

2026-05-13 19:12:43 353

原创 从Anthropic论文到工程落地:Harness engineering结合claude code,讲解四层前端架构规范

AI 时代,许多人都体验过了vibecoding,但结果不同。

2026-05-12 19:52:34 380

原创 传统RAG把文档切碎,TreeSearch不接受,结果反而更快更准

无需 Embedding,无需向量库,无需切分——开源项目TreeSearch 用树结构保留文档灵魂,毫秒级检索万级文档。

2026-05-12 19:51:14 408

原创 LangGraph 持久化深度解析:Checkpoint 机制如何实现对话记忆和断点续跑

很多同学在第一次接入 LangGraph 时,会发现图默认是「无状态」的——每次 `invoke`,上一轮的消息就消失了。你以为加了 MessagesState 就有记忆了,结果测试一问,Agent 完全不知道「你叫什么名字」。

2026-05-12 19:50:23 347

原创 阿里Agent岗三面:在实际落地中,你觉得 RAG 最难的地方是哪里?

👔面试官:RAG 你也做了一段时间了,你觉得实际落地中最难的地方在哪?

2026-05-11 22:04:39 373

原创 常见的 17 种 RAG 方案解析

近年来,随着大语言模型(LLM)的广泛应用,检索增强生成(Retrieval-Augmented Generation,RAG)系统逐渐成为连接私有知识库与智能问答的核心架构。RAG 不仅弥补了大模型在实时性与事实性上的不足,也通过多种技术路径不断演进,形成了丰富的方法体系。

2026-05-11 22:03:38 378

原创 用OpenClaw搭一个越用越聪明的AI智能体团队,只需要几个Markdown文件

很多人第一次配置OpenClaw是通过对话完成的——告诉它你是谁、你想要什么,它帮你生成配置文件并一键安装。方便,但那之后,你完全不知道内部发生了什么。

2026-05-10 10:45:00 379

原创 多Agent场景,子agent 之间数据读写不同步,如何解决?

多Agent 系统里,经常会出现一个单 Agent 里从来不会出现的问题:一个子 Agent 刚写完数据,另一个子 Agent 立刻去读,结果是空的。

2026-05-09 19:23:58 356

原创 Agentic RAG 深度解析:让 Agent 自己决定要不要检索、检索几次,这才是 RAG 的正确打开方式

你有没有遇到过这种情况:搭了一套标准 RAG,上线后发现检索结果驴唇不对马嘴——用户问「2024 和 2025 的年度报告对比一下」,系统只检索到了 2024 的内容,然后大模型用这半桶水给了你一个「信心满满但完全错误」的答案。你反复调 top-K、调 chunk size,就是不稳。根本原因不是参数没调对,而是**传统 RAG 的架构本身就没有自我纠错的能力**——它就是个固定管道,检一次,生成,完事。

2026-05-09 19:22:06 376

原创 Harness 实践:让 Agent 自动制作知识讲解视频

前段时间我发了几条技术讲解视频,评论区好多同学问:这个视频效果是怎么做的?

2026-05-09 19:19:21 322

原创 我想拍桌子,作为 Java 后端程序员,老板限我一天把 RAG 升级成 Agent

大家好,我是秃头哥,一名 Java 后端程序员,每天开心撸 CRUD、调 RAG 问答、搭 Spring Boot+Elasticsearch 知识库,本来安安稳稳过日子。

2026-05-08 22:03:41 353

原创 RAG(检索增强生成)会不会消亡呢?

最近不少同学在简历或面试里提到做过 RAG(Retrieval-Augmented Generation)项目,开口就是:

2026-05-08 22:02:33 336

原创 从 Claude Code 看 Harness Engineer 的设计

几乎每一个认真用过 Claude Code 的人,都经历过同一个阶段:开始疯狂往 CLAUDE.md 里写东西。

2026-05-08 22:01:21 379

原创 ReAct 论文深度解读:让大模型学会“边想边做“

在 ReAct 之前,**Chain-of-Thought (CoT)** 已经成为提升 LLM 推理能力的标配方法。

2026-05-06 18:59:36 179

原创 字节 AI agent 一面面试题

(1)视觉编码器( Vision Encoder ):以 CLIP ViT / SigLIP / EVA - CLIP 为主,图像分为 patch 序列提取视觉特征,通常使用预训练权重(冻结或部分微调)。现代方案(如Qwen2.5- VL )用2D- RoPE 替代绝对位置编码,支持原生动态分辨率和任意宽高比。

2026-05-06 18:58:17 224

原创 RAG+Agent 深度融合实战:打造基于私有知识库的企业级智能助手

本文是《大模型Agent全栈开发实战系列》第七篇,承接前序Agent核心架构、规划模块、记忆模块、工具调用、LLM选型与提示词工程的全流程内容,深度拆解**RAG+Agent深度融合**的底层逻辑与生产级落地方案。从三大主流融合架构选型、私有知识库全流程构建,到与LangGraph架构的无缝集成、四大核心痛点解决方案,再到企业级进阶优化与10大避坑指南,全维度覆盖RAG+Agent从Demo到生产的完整链路。无论你是AI入门者、转型开发的工程师,还是企业技术负责人,都能通过本文解决Agent无法接入私有知识

2026-05-06 18:57:00 410

原创 【万字长文】Agent 记忆设计:从短期上下文到长期记忆系统

一个 agent 真正露怯的时刻,往往是忘了刚刚和你一起建立过的上下文。上周刚改过一个项目,今天它却表现得像第一次见到这个仓库一样。直觉上,这叫“没有记忆”。但真要做一个能长期工作的 agent,问题比“加一个 memory store”要麻烦得多。

2026-05-05 21:00:43 433

原创 Memory全解析:截断、总结、检索,AI 的三种记性怎么选

你有没有遇到过这种情况:和 AI 聊了十几轮,突然它说"你刚才说的是什么来着?"——其实是你塞进 context 的消息太多,早几轮的内容被截掉了。或者反过来:把所有历史消息都带上,token 爆了,每次调用都超级贵。

2026-05-05 20:59:17 242

原创 知识图谱赋能大模型,全球海面温度预测迎来新突破

本文介绍一项来自复旦大学、香港理工大学等机构的最新研究——OKG-LLM框架。该框架首次将海洋知识图谱(OKG)与大语言模型(LLM)深度融合,通过结构化领域知识与精细数值观测数据的协同对齐,实现全球海面温度的高精度预测,在九项基线模型对比中全面超越现有最先进方法。

2026-05-05 20:58:10 366

原创 Multi-Agent 的四种协作模式:Supervisor、Swarm、网状、流水线,怎么选?

你搭了一个 Agent,起初跑得挺好。后来需求升级了,调研+写作+事实核查全压在一个 Agent 上。结果上线后发现:系统提示词膨胀到 800 字,工具列表里有 15 个工具,Agent 开始选错工具、忘记自己设定的规则,偶尔一步出错后面全错。你在想,是不是我的 Prompt 写得不够好?

2026-05-04 22:24:52 408

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除