推理幻觉-CSDN博客

原创 Claude Code 常用命令

Claude Code 命令摘要 Claude Code 提供两个核心功能：历史清理和项目初始化。使用Remove-Item命令可清空所有历史记录。/init命令会扫描项目结构，自动生成CLAUDE.md项目说明书，包含技术栈、常用命令、代码规范等关键信息。该文件帮助Claude更好地理解项目上下文，避免误操作，特别适用于初次使用Claude Code时建立项目认知基础。初始化后，Claude会优先参考该文档执行后续操作。

2026-04-28 23:32:19 96

原创 Trace Grading 到底是什么？为什么黑盒评测救不了 Agent

截至2026-04-18，OpenAI 的官方表述已经很明确。在 OpenAI 的给一个 agent trace 赋予结构化分数或标签评估 correctness、quality、adherence to expectations帮助识别 agent 做得好或做错的地方这句话其实已经把本文标题回答完了。黑盒 eval 看“成败”trace eval 看“成败是怎么发生的”Trace Grading 之所以成立，前提是你先有 trace。

2026-04-18 17:23:00 441

原创 MCP Tasks 到底解决了什么？为什么 Agent 不能只靠同步工具调用

截至2026-04-18，MCP 官方对 Tasks 的定义已经很清楚。它引入了引入了task ID让请求方可以查询 task 的状态和结果用来支持这几个词特别重要。给原来的请求增加一种可延迟取回结果的执行模式。也就是说，Tasks 不是替代tools/call，而是增强 MCP 请求的执行方式。

2026-04-18 17:19:55 209

原创 A2A 为什么补不上 MCP？多 Agent 协作和工具接入根本不是一回事

这半年，很多人一看到A2A和MCPA2AMCP所以你问“A2A 能不能替代 MCP”，就像在问：部门之间能不能开会，能不能替代员工访问公司内部系统？完全不是一个层次。

2026-04-17 13:56:15 803

原创 OpenAI Agent 真正的主线是什么？Responses API、Tools、Tracing、Codex 一次讲清

Codex2026-04-08如果把这几件事拆开看，会觉得 OpenAI 在同时做很多条线；

2026-04-17 13:50:42 545

原创 Responses API 为什么成了 OpenAI 做 Agent 的新默认栈？

也正因为这些问题，OpenAI 在2025-03-11。

2026-04-14 09:07:25 642

原创 Codex、Cursor、MCP、Harness：2026 AI 编码团队的真实分工图

这两个月，AI 编码圈最容易让人混乱的一件事，不是模型名，而是角色名。Codex、Cursor、MCP、Harness，这几个词经常同时出现。很多争论之所以吵不明白，不是因为谁说错了，而是因为大家在拿。

2026-04-14 09:04:02 652

原创什么是 Harness Engineering？为什么 AI 团队正在从“写代码”转向“造环境”

如果你还把 AI 编码理解成“让模型多写几段代码”，那你看到的只是最表面的一层。工程团队正在从代码生产者，变成 Agent 运行系统的设计者。这也是为什么我越来越觉得，未来最重要的问题不是：这个模型能写多少代码？而是：你有没有给它一个足够好的 harness，让它把代码写对、改对、验对，并稳定交付？这，才是 Harness Engineering 真正值钱的地方。

2026-04-13 14:19:55 413

原创 A2A、MCP、A2UI 到底怎么分工？多 Agent 系统的三层协议栈终于讲明白了

多 Agent 系统做大以后，会出现一个很现实的问题：远程 Agent 明明知道下一步最好给用户一个表单、一个卡片、一个时间选择器、一个图表，但它不能直接去碰你的前端 DOM。这就是 A2UI 想解决的问题。Google 在2025-12-15Agent 不返回一段可执行脚本Agent 返回的是一个声明式 UI 描述客户端自己把这份描述渲染成“本地可信组件”安全：不给远程 Agent 直接执行 HTML/JS 的机会一致性：界面风格仍然由宿主应用掌控可组合。

2026-04-13 14:09:11 543

原创 GPT-6 后天发布？我查了 OpenAI 官方页面，真正的大戏其实不在“模型名”

大家现在都在等 GPT-6。但我认为，真正值得关注的，不是 GPT-6 这个名字，而是 OpenAI 正在把“模型”升级成“智能体操作系统”。谁能把智能、安全、算力、工作流和企业治理，打包成真正可落地的生产系统。如果这个判断成立，那么未来 1 到 2 年最先被改造的，不会只是某个岗位，而是整个公司的工作流设计方式。而这，可能才是 GPT-6 前夜最值得聊的事。

2026-04-13 10:48:26 646

原创 AI Agent 架构科普：Harness 和 Skill 到底有什么区别？

传统的大模型（LLM）更像一个知识渊博的聊天机器人，你问它答；而 AI Agent 更像一个能自主感知、规划、调用工具、执行任务并迭代修正的系统。要把大模型真正变成“能干活”的 Agent，光有一句 Prompt 远远不够，还需要一套工程化架构。harness和skill，就是这里面最核心的两层抽象。harness是运行与控制框架，skill是可调用的具体能力单元。前者负责编排、治理和约束，后者负责执行、产出和复用。只有把两者拆开，Agent 才更容易维护、扩展，并真正落地到企业级业务场景里。

2026-04-09 10:45:28 438

原创企业级AI获客系统：五层设计逻辑与实施路径

企业级AI获客系统的核心，是将非结构化的市场信号转化为有优先级的、可执行的销售动作，同时通过反馈回路持续提升精准度。整个系统可以拆分为五层。

2026-04-09 01:42:57 286

原创普通程序员怎么靠 CSDN 做副业？一张副业图谱讲透，从写博客到月入过万

开发经验项目经验面试经验排错经验架构优化。

2026-04-06 23:57:11 359

原创 Codex / OpenCode / Cursor / OpenClaw 对比指南

Codex：OpenAI 原生 Coding Agent，强调端到端完成开发任务Cursor：AI 原生 IDE，把写码、改码、审查、调试整合进编辑器OpenCode：开源终端型 Coding Agent，模型自选、配置自由OpenClaw：自托管消息网关，把任意 Coding Agent 接入聊天软件最核心的一条原则其实很简单：先明确你的使用场景，再匹配工具定位。不要用“聊天网关”去替代“开发工作台”，也不要用“终端型 Agent”去强求“全家桶式一键体验”。

2026-04-06 23:26:26 2378 4

原创 AI Agent 架构科普：Harness 和 Skill 到底有什么区别？

传统的大模型（LLM）更像一个知识渊博的聊天机器人，你问它答；而 AI Agent 更像一个能自主感知、规划、调用工具、执行任务并迭代修正的系统。要把大模型真正变成“能干活”的 Agent，光有一句 Prompt 远远不够，还需要一套工程化架构。harness和skill，就是这里面最核心的两层抽象。harness是运行与控制框架，skill是可调用的具体能力单元。前者负责编排、治理和约束，后者负责执行、产出和复用。只有把两者拆开，Agent 才更容易维护、扩展，并真正落地到企业级业务场景里。

2026-04-06 22:43:34 1372

原创本周 GitHub AI 热点深度盘点：5 个值得开发者重点关注的开源项目

盘点本周 GitHub 最值得关注的 5 个 AI 开源项目，聚焦 AI Agent、AI 编码工作流、团队协作方法论和语音 AI，并结合应用场景分析哪些项目值得开发者优先关注。

2026-04-02 08:45:00 346

原创 Skill 的技术原理与未来发展方向：从工作流到能力组件

简单来说，Skill可以理解为一份面向 AI 的“工作流说明书 + 执行资源包”。一层是描述性信息。比如这个 Skill 是做什么的、在什么场景下应该触发。一层是执行性信息。比如详细步骤、约束、示例、脚本、模板、参考资料等。所以，Skill 的核心价值并不只是“多写一点提示词”，而是把经验、流程、工具和约束组织成一个更稳定的能力单元。Skill 的本质，不是把提示词写得更长，而是把一类任务的经验、流程、资源和约束，封装成可复用的能力单元。用触发机制完成任务路由用分层加载控制上下文成本。

2026-04-01 08:45:00 1250

原创 Skill vs MCP：方法与连接，怎么分工？

Skill不是MCP的替代品，MCP也不是Skill的上位版本。Skill解决“怎么做”。MCP解决“怎么连”。所以在真实项目里，最常见、也最有价值的组合，往往不是二选一，而是把两者放在同一条工作链路里一起使用。

2026-04-01 00:56:21 535

原创什么是大模型蒸馏：把大模型的能力压缩进小模型

大模型蒸馏，本质上就是让一个强模型当老师，把它的能力教给更小的模型。它追求的不是完美复制，而是在更低成本、更快速度、更容易部署的前提下，让小模型尽可能接近大模型的效果。如果你从工程视角来看，蒸馏是一种非常现实的能力迁移方法；如果你从产品视角来看，它是在帮助团队用更低的资源，拿到尽可能高的模型表现。

2026-04-01 00:53:09 354

原创炸了！程序员的未来不是被AI取代，而是当“Agent指挥官”，只会写代码的人要凉了

“Copilot写代码比我快10倍，我是不是要被裁了？”“以后是不是只有顶尖程序员能留下来，剩下的都要被AI取代？”“程序员终将变成‘Agent设计师’？那现在学的代码还有用吗？”

2026-03-18 12:28:09 398

原创从能跑到跑得快：一次大模型硬件加速的工程实践

本文探讨了大模型硬件加速的工程实践，指出硬件加速不仅是使用GPU，而是包含算力层、模型层和推理引擎层的系统优化。常见误区包括仅使用GPU而忽略推理引擎优化、接口与推理耦合、串行执行等问题。文章提出四条加速路径：上GPU、量化、更换推理引擎和独立推理服务，并通过案例说明将vLLM作为独立服务的优势——提升并发能力、降低延迟和明确职责划分。核心原则是：硬件加速是系统工程，需分类请求、重视并发、解耦服务架构。最终强调大模型体验由系统架构决定，合理的演进路径能显著提升性能。

2026-03-15 17:19:19 384

原创 ssh远程连接错误

【代码】ssh远程连接错误。

2026-02-18 13:30:50 167

原创 vs code ssh使用codex

2026-02-18 13:13:46 1223

原创 Android 注册页输入框焦点抖动与键盘闪烁问题

附：本记录未包含任何服务器地址、用户标识、令牌或机构名称等敏感信息；文件路径与代码片段均为示意或已脱敏版本。本文已对应用名称、服务地址、用户标识等敏感信息进行处理，仅保留与问题定位和修复相关的通用技术细节。

2025-11-21 07:06:47 507

原创 cursor + miktex 无痛写论文

本文介绍了LaTeX工作环境的配置步骤：首先安装MiKTeX和Strawberry-Perl，然后在Cursor编辑器中进行设置。主要内容包括配置自动构建规则、PDF查看器选项、编译工具链（xelatex/pdflatex和bibtex的组合）、清理文件类型设置，以及预览、同步等辅助功能。配置还涉及编辑器主题、Git集成等开发环境设置，为LaTeX文档编写提供了完整的工具链支持。

2025-11-21 07:04:46 770

原创多智能体规划偏差修正指南（基于国际主流方案）

本文提出多智能体规划偏差修正的分层防御架构（6层关口），参考国际主流机构最新研究成果。针对多智能体协作中的意图漂移、幻觉断言和不可执行等核心问题，采用分层检测与修正机制：不确定性感知澄清层：通过采样方差等指标主动识别并澄清模糊需求多候选规划生成层：使用Tree of Thoughts等方法并行生成备选方案符号验证层：检测前置条件缺失等逻辑错误证据绑定层：强制要求提供可验证的数据支持执行守护层：工具调用实时校验在环优化层：持续学习改进该架构通过代码示例展示了不确定性评估和多候选生成等关键技术实现

2025-11-07 08:45:00 788

原创线性注意力架构：突破Transformer的计算瓶颈

线性注意力架构突破Transformer计算瓶颈传统Transformer的二次复杂度成为处理长序列的主要障碍。线性注意力通过数学变换将复杂度降至线性水平，核心方法包括：1）核技巧特征映射；2）计算顺序重排；3）递归状态压缩。关键技术涵盖门控线性注意力、高阶线性注意力等变体，以及LoLCATs等高效转换方法。最新研究如Infini-attention实现百万级上下文建模，而LASP-2等优化提升了并行效率。这些突破为处理超长序列提供了高效解决方案，推动了大模型在长文本、视频等领域的应用潜力。

2025-11-05 08:45:00 1303

原创 Transformer三大架构解析：Encoder-Only vs Decoder-Only vs Encoder-Decoder

Transformer三大架构解析摘要 Transformer架构已发展出三大主流分支： Encoder-Only（如BERT）：擅长文本理解任务，采用双向注意力机制，适用于分类、NER等场景 Decoder-Only（如GPT系列）：专注于文本生成，使用因果注意力，当前占据85%市场份额 Encoder-Decoder（如T5）：专精序列转换任务，适合翻译、摘要等应用 2025年趋势显示： Decoder-Only模型（GPT-4、Claude等）已成为行业主导开源模型（LLaMA、Mistral等）快

2025-11-04 08:45:00 1261

原创 IDE/编码代理架构与 Cursor 相关研究（汇总）

本文探讨了AI驱动的IDE/编码代理（如Cursor）的架构设计与安全挑战。研究指出，当前缺乏官方公开的Cursor内部架构文档，但多篇论文涉及高权限IDE代理的安全风险（如提示注入攻击）、生产力影响评估和代理架构模式。关键建议包括：实施最小权限沙箱、命令白名单、高危操作人工确认等防护措施；采用MCP协议进行遥测和工具集成；建立"人在回路"机制确保关键节点可审。文章还推断Cursor可能采用的模块化架构，包括上下文检索层、代理编排层和安全验证层等核心组件，并提供了基于MCP的最小实现示例

2025-11-03 22:08:08 904

原创 Github上传代码指南

SSH密钥生成与GitHub配置指南 🔐 本教程详细介绍了SSH密钥的生成和使用方法，重点讲解如何创建安全的ED25519密钥对并配置到GitHub账户。主要内容包括： SSH密钥原理：公钥/私钥加密机制生成步骤详解（支持Windows/macOS/Linux）关键参数说明，特别是邮箱参数的灵活使用 GitHub配置流程和验证方法安全注意事项和常见问题解答特别强调：SSH认证仅依赖密钥对匹配，邮箱参数仅作为注释标识，不影响实际连接功能，但建议使用真实邮箱便于管理。教程提供了完整的命令行示例和可视化

2025-09-23 08:45:00 1070

空空如也

空空如也