认知超载-CSDN博客

原创踩坑日记：记一次用coze自动化生成微信公众号技术文章的尝试

摘要：作者尝试用大模型实现公众号内容全自动生成，从智能搜索到自动排版发布。理想方案包括素材采集、专业内容生成和定制化工具链，但在"扣子"平台实施时遇到搜索成功率低、模型输出不稳定等问题。最终调整为半自动方案：人工优化内容后，用自研工具完成排版发布。结论指出当前全自动化受限于技术边界，合理的人机协作才是提升效率的关键，在保留人工审核的同时，利用AI和专用工具实现生产力跃升。这次探索虽未达预期，但明确了技术应用的合理边界和优化方向。

2025-09-14 09:00:00 669

原创 Claude Code 的 Subagent 到底怎么用？

Subagent是ClaudeCode中的专业化AI代理系统，每个代理专注单一领域（如代码审查、数据库设计），具备独立记忆空间和并行处理能力。适用于中大型项目开发，通过配置文件定义代理职责与权限，可显式调用或自动触发多代理协作。典型场景包括代码安全审查、全栈并行开发和技术方案对比。使用时需注意避免过度拆分、权限过宽等陷阱，结合链式工作流和负载均衡可显著提升效率。实测在电商项目开发中能缩短20%工期并提升40%性能。

2025-09-13 09:00:00 1359

原创 Qwen3-Coder 都用上了吗？

阿里云发布开源代码模型Qwen3-Coder及配套工具QwenCode，其中Qwen3-Coder-480B-A35B-Instruct采用混合专家架构，支持256K上下文并可扩展至1M，在代理编程、工具调用等任务上达到开源模型SOTA水平。其技术亮点包括大规模数据预训练、强化学习优化及多环境并行训练。QwenCode工具支持通过命令行调用模型，兼容多种开发环境。该模型可处理复杂编程任务，如网页开发、3D建模等，开发者可通过API直接调用。未来将重点提升模型的自我改进能力和部署效率。

2025-09-12 09:00:00 940

原创 MinerU | 高精度文档解析工具：从PDF到结构化数据的智能桥梁

MinerU是一款开源的工业级文档解析工具，通过深度学习技术将PDF、扫描图像等非结构化文档精准转换为可编辑的Markdown/JSON/HTML格式，完整保留文字、表格、公式等多模态元素。核心优势包括：支持37种语言混合识别、高性能解析引擎、极简部署方案（Web/CLI/Docker）和开源生态扩展。特别适用于学术论文、法律文书等复杂场景，提供离线模式和企业级文档自动化处理能力，由InternLM团队研发并持续更新。

2025-09-11 09:00:00 1184

原创 Claude Code 接入 Kimi K2，手把手教程

本文介绍了无需WSL安装Claude Code的极简方法：1）通过PowerShell执行npm全局安装命令；2）配置npm全局路径到系统环境变量；3）验证安装版本。特别说明WSL用户需先卸载旧版，并提供了接入Kimi API的配置指南（设置环境变量即可切换API服务）。最后建议用户通过创建贪吃蛇项目来测试工具功能。全文以分步骤形式呈现，重点突出环境变量配置和API切换方法，适合开发者快速部署使用。

2025-09-10 09:00:00 1036

原创 SGLang、vLLM 和 Ollama：大模型推理与部署框架的系统性对比分析

本文对比分析三大AI模型推理框架SGLang、vLLM和Ollama的核心特性与适用场景。SGLang专注高性能复杂任务，支持跨平台部署；vLLM擅长高吞吐企业级应用，依赖NVIDIA硬件；Ollama则主打轻量本地化部署。性能方面，SGLang通过RadixAttention提升缓存效率，vLLM采用PagedAttention优化显存管理，Ollama依赖模型量化技术。建议企业高并发场景选择vLLM，跨平台/低延迟需求选用SGLang，个人开发则推荐Ollama。

2025-09-09 09:00:00 607

原创 LangChain和它的小伙伴们：核心框架与开发工具解析

LangChain生态是一套完整的LLM应用开发解决方案，包含四个核心组件： LangChain - 模块化开发框架，提供模型集成、提示词管理等功能 LangSmith - 开发运维平台，支持调用链追踪、测试监控等 LangGraph - 复杂工作流引擎，支持多智能体系统构建 LangServe - API部署工具，实现快速产品化该生态覆盖从开发到部署的全流程，可将LLM应用的开发周期从周级缩短至小时级，同时确保生产环境可靠性。开发者能通过模块化组件快速构建应用，并通过可视化工具进行调试优化。

2025-07-03 09:00:00 405

原创 RAG技术栈详解：构建智能问答系统的核心组件

本文全面解析RAG（检索增强生成）技术架构及实现方案，涵盖核心组件选型、开发框架对比和进阶优化方向。重点介绍了检索模块（向量数据库、嵌入模型）与生成模块（商用/开源大模型）的技术选型，对比了LangChain、LlamaIndex等主流开发框架。文章还提供了中小企业推荐技术栈组合（ChromaDB+bge-large-zh+GPT-4）和企业级方案（Neo4j+Redis），并指出多模态RAG、自适应检索等未来演进方向。通过系统化的技术架构全景图，为构建知识增强系统提供实践指导。

2025-07-02 09:00:00 937

原创 LLM应用喂饭教程：使用 Easy Dataset 制作问答数据集

随着人工智能技术的不断发展，Easy Dataset 有望持续优化升级，集成更多先进的算法和模型，拓展更多的功能，如支持更多语言的问答数据集制作、提供更精细的数据评估指标等，为推动 LLM 在各个领域的深度应用和创新发展发挥更重要的作用。Easy Dataset 是一款强大的工具，能够帮助用户高效地创建用于微调 LLM 的问答数据集。2. 查看生成的答案，对答案进行编辑和优化，确保答案准确、完整且逻辑清晰，符合实际应用场景的需求，如对医学答案中的专业术语进行补充解释，使其更易于非专业用户理解。

2025-07-01 09:00:00 802

原创 LLM应用工程师薪资大概在什么水平？（2025年Q2）

《2024-2025年AI行业薪酬报告》显示，中国AI人才薪资呈现金字塔结构，应届生年薪24-36万，3-5年经验者达36-60万，专家层突破80万。北京、杭州、上海为高薪集中地，互联网/电商行业平均年薪50-80万。技术岗薪资构成中，基础工资占66.7%，管理岗溢价显著。多模态LLM开发岗薪资年增25%-30%，但初级岗位面临泡沫化风险。建议人才向"技术+商业"复合型发展，关注二线城市性价比优势。（148字）

2025-06-30 12:03:55 1721

原创 Gemini-CLI：谷歌开源的命令行AI工具，重新定义开发者工作流

谷歌推出的Gemini-CLI（命令行界面工具）正在重塑开发者与AI的交互方式。这款基于Gemini 2.5 Pro模型的开源工具，将多模态AI能力深度集成到终端环境，为开发者提供了全新的生产力工具。截至2025年6月27日，其GitHub仓库已获得超3万星标，成为AI编程领域的新晋明星项目。

2025-06-29 17:20:09 1290

原创微调 || RAG，项目落地怎么选？LLM应用选型指南，适用场景全解析

在这个过程中，模型基于新数据集修改权重和参数，学习特定于任务的模式，同时保留来自最初预训练模型的知识。某连锁餐饮企业菜品推荐系统通过微调实现40%的响应加速。金融风控模型微调案例显示，10万条标注数据训练可使反欺诈识别率从82%跃升至91%，但需承担12万元/次的训练成本。某电商客服系统通过RAG对接商品数据库，实时检索使订单查询准确率从78%提升至92%，响应速度比传统方案快2.3秒。研究报告生成系统整合50+行业数据库，通过RAG生成的深度分析内容信息量提升300%，用户满意度达92%。

2025-06-09 11:09:14 315

原创 Dify：企业级 LLM 应用落地的理想之选

它不仅内置了构建 LLM 应用所需的关键技术栈，如对数百个模型的支持、直观的 Prompt 编排界面、高质量的 RAG 引擎、稳健的 Agent 框架和灵活的流程编排，还提供了一套易用的界面和 API。同时，Dify 在 RAG 引擎、Prompt 管理、工作流编排等功能上与 LLM 的结合更为紧密，提供了更强大的 LLM 专用能力，而 n8n 作为一个通用的自动化工具，其在 LLM 领域的功能支持相对较为通用，可能需要用户进行更多的自定义开发工作来实现特定的 LLM 应用需求。

2025-06-05 12:24:50 978

原创李飞飞World Labs开源革命性Web端3D渲染器Forge！3D高斯溅射技术首次实现全平台流畅运行

今日，他们正式开源了Forge——一款专为Web端设计的3D高斯溅射（3D Gaussian Splatting）渲染器，不仅支持THREE.js生态，更能在手机、XR设备等低功耗硬件上实现实时流畅渲染。"这一工具不仅降低了3D内容开发的门槛，更与World Labs此前发布的"单图生成3D世界"技术形成闭环，加速空间智能（Spatial Intelligence）的落地。：支持主流3DGS文件格式（PLY、SPZ、SPLAT、KSPLAT），并可与传统网格模型混合渲染；

2025-06-04 20:40:17 1928

原创 AI是如何发展成今天这个样子的？

这个看似简单的测试，却像一把钥匙，开启了人类对AI的无限想象。这场会议被后世称为「AI的创世纪」，但谁也没想到，这场理想主义盛宴背后，藏着无数现实的耳光。这个程序像一面镜子，照出了人类对情感联结的渴望，也揭示了AI技术的局限。这个能自我对弈百万次的AI，让人类第一次见识到「深度学习」的威力。资金断流、舆论嘲讽，AI成了学术界的「弃子」。今天的AI已能同时「看、听、说、写」，像《黑客帝国》中的母体般渗透进生活每个角落。1990年代，统计学习方法异军突起，通过从数据中自动发现规律，开启了数据驱动的AI新时代。

2025-06-04 20:37:20 934

原创 Anthropic发布Claude 4系列模型：AI技术进入人机协作新纪元

Anthropic发布了Claude4系列模型（Opus4与Sonnet4），标志着AI技术从单任务处理迈入持续智能协作的新阶段。该系列首次实现“扩展思维”与“记忆文件”，重新定义人机协作边界。Opus4作为全球首个可持续协作的超级编码大脑，支持数千步复杂操作，性能衰减控制在3%以内。Sonnet4则定位为工业级智能协作中枢，效率显著提升，API成本维持不变。Claude4系列的技术架构与性能指标为行业树立新标杆，开发者可通过原生API、云平台及ClaudeCodeSDK接入。该系列不仅提升开发效率，还推动

2025-05-23 10:15:56 1247

原创 10分钟入门LLM应用：用PocketFlow的100行代码玩转LLM核心设计模式

《10分钟掌握LLM核心设计模式：PocketFlow极简实践》介绍了如何通过100行代码的PocketFlow框架快速实现六大LLM设计模式。该框架采用节点(Node)和流(Flow)的极简架构，支持对话记忆、智能体决策、多阶段工作流、RAG检索增强、并行处理及人工监督等核心模式，并能灵活组合构建复杂系统。

2025-05-21 15:17:23 503

原创 Pocket Flow：用最少的代码实现用Cursor做一个Cursor

PocketFlow是一个仅用100行代码实现LLM应用高度抽象的开源项目，通过图结构和共享内存实现高效工作流。其亮点包括：1）极简代码量却功能强大；2）优秀文档支持（博客、视频、模版）；3）易于AI理解和生成高质量代码；4）工作流框架可扩展至其他领域。作者提供的丰富示例让用户能快速掌握LLM应用开发，比可视化工具更高效，且产出代码便于系统集成。该项目展示了如何用精简代码实现复杂功能，开发体验令人惊喜。

2025-05-21 15:10:58 311

原创为了复现github很火的cursor工作流，我将BMAD方法迁移到了扣子商店

最直接的思路是：选一个合适的国产AI平台，创建智能体，把txt模板上传知识库，然后直接与智能体开始对话就行，把产出的文档保存到docs文件夹。如果你和我一样，对BMAD作者的方法论十分赞同，但又觉得作者的介绍过于详尽（以至于不知道从哪里开始），无法使用gemini，渴望拥有中文版，那么接下来的部分你应该会感兴趣。简单来讲，BMAD在gemini上创建了4个gem（就是智能体），按照敏捷流程分别与这几个智能体对话，得到详尽的文档，最后根据文档开发、测试、提交。具体效果好不好，我就不乱试了，还是等作者更新吧。

2025-05-12 19:57:41 988

原创 Cursor高阶玩法：培养并行进化的赛博生物？（下)

AI开发者读issue列表，如果有待处理（open）项就领取issue任务，更新issue状态为进行中（progressing），并开始执行任务：拉取master分支，新建自己的任务分支（用issue id命名）开发功能，完，更新issue待办项状态为：审核中（In Review）并提交pull request，并在issue评论中提供pull request id。它能够充分利用人类的智慧来弥补代理在处理复杂、不确定问题时的不足，同时也发挥代理的高效、精确的数据处理能力，提高整体的工作质量。

2025-05-08 12:42:35 1182

原创如何实现智能体的记忆层？

Mem0 还具有自动记忆存储与持久化功能，能方便地捕获和存储用户与 AI 的交互、AI 的思考过程等需要被 “记住” 的信息，并支持多种后端存储。本文将介绍智能体记忆层的概念，并对采用记忆层（如 Mem0）、RAG 和向量数据库等不同方案进行比较，同时列举一些现有的开源记忆层方案，最后探讨智能体记忆层的典型应用场景。简介：MemoryBot 是基于会话记忆的智能聊天机器人，能够记住对话中的关键信息，并在后续交互中利用这些信息提供更连贯和个性化的对话体验。

2025-04-18 20:10:56 472

原创 Cursor高阶玩法：培养并行进化的赛博生物？（上）

抛开AI沟通技巧不谈（假设你已经很擅长和AI沟通了），从软件的开发生命周期来看，似乎每一步都应该有更好的提示词。本质上是实践论也就是PDCA的再循环，而在这个方面《敏捷开发》早就给了比较详尽的解决方案，只是敏捷是面向人的，Cursor是面向AI的，而AI与人类的不同也非常明显：快、可并行、从不抱怨。在Cursor的世界中，需求即进化目标。这让我意识到，我不应该用自己知识面狭窄且推理能力不足的脑子来思考（在这些方面LLM都比我强得多），更不应该强行控制Cursor用我的思路解决问题（这只是在拖慢进化速度）。

2025-04-17 19:28:50 497

原创有记忆的智能体有什么用？

当你失恋时，它能调出三年前你成功脱单时的"打气记录"，用你自己的声音安慰你："你看，当时你连相亲都嫌麻烦，现在却为感情纠结？这种"记忆能力"看似简单，却为AI的应用场景打开了新维度，用“agent层”“记忆层”代替传统软件的“业务逻辑层”“数据库层”，可以使智能体从单纯的工具变成人类的伙伴。在尝试动手写这样一个有记忆功能智能体的过程中，我更加坚信，LLM的知识是超越人类个体的，向量数据库存储能力也是超越人类个体的，将他们合理组合在一起，它将非常像一个真正的人类伙伴。教育助手：学习法融合的"错题终结者"

2025-04-16 18:20:21 413

原创尝试1小时编写有长期记忆的情感陪伴智能体：Cursor到底能让编程简单到什么程度？

确实实现了一个AI-Agent并调用了向量数据库（但是似乎要聊很多次才能触发长期记忆），LLM用的kimi的moonshot-v1-8k，对话看起来似乎不是很聪明的样子。AI编程相较于传统编程，非常反常识的一点就是：你不需要先学会什么再去实现什么，而是应该假设你已经学会了所有技术细节，把注意力放在实现价值上面。让AI指出方案的不足之处，再次让AI生成《系统架构设计说明书》（但似乎不太适合MVP）就细节反复迭代，如果不知道它写了啥，问他就对了，直到获得最佳版本。说明需求，让AI复述并提出疑问。

2025-04-14 09:48:49 279

原创 Google推出A2A协议，对AI行业有哪些长远影响？

这是一项旨在打破AI智能体间信息孤岛的开放协议，其核心目标是实现不同供应商、不同框架的AI智能体之间的跨平台、跨系统无缝协作。由Google推出，是一种开放协议，旨在让不同来源、不同技术的AI智能体能够相互沟通、安全地交换信息，并协同执行跨平台的复杂任务。A2A协议将智能体之间的协作提升到新高度，形成类似于人类社交网络的生态系统，推动社会进入一个更加协作和互联的状态。过去，AI智能体往往是孤立的，A2A协议让不同厂商的智能体能够快速组队，共同完成复杂任务。

2025-04-10 14:43:37 997

原创小米SU7事故：自动驾驶你应该知道的那些事

然而，如果算法模型对复杂场景的判断不够准确，或者对特定障碍物（如锥桶、水马等）无法有效识别，AEB系统可能无法及时启动，导致事故的发生。在小米在官方回应中明确，事发车辆是一台SU7的标准版，搭载的是一颗英伟达OrinN智驾芯片，算力只有84TOPS，相比之下小米SU7Pro、Max版采用了双OrinX芯片，算力可达508TOPS；对于小米而言，这起事故是一次严峻的考验。- 轻地图方案：小米汽车的智驾系统采用轻地图方案，这种方案相比传统的高精地图，降低了精度和要素，但提升了数据的鲜度，能够按天级更新。

2025-04-02 11:49:02 688

原创为什么不建议你在本地跑模型：以Cline为例

本地模型是将大型模型通过蒸馏（distillation）技术精简后在本地运行的版本，训练小型模型模仿大型模型，但仅保留原模型1%-26%的容量。Cline是一个功能强大的AI编程助手，它能够通过工具调用的方式帮助用户高效地进行代码的编写、分析与修改，支持本地部署和云端API调用，为开发人员提供灵活且便捷的使用体验。当你选择在本地运行模型时，Cline会加载精简后的模型，该模型仅保留原模型1%-26%的容量。：本地模型性能受限，响应速度慢，是云端的5-10倍，复杂任务处理能力弱，多步骤任务易失败。

2025-03-28 06:38:34 1270

原创 Agent TARS：字节跳动开源通用AI Agent

例如，在市场调研中，它可自动浏览网页、提取数据并生成报告，成功率高达95%。Agent TARS 已吸引超1000名开发者参与开源社区建设，未来计划扩展移动端支持，并构建插件生态系统（如电商库存管理、医疗数据解析等垂直场景工具）。支持浏览器、命令行（CLI）、文件系统及编码工具的联动操作，通过模型上下文协议（MCP）实现跨平台协作。具备短期记忆（任务上下文）和长期记忆（历史交互记录），支持连续任务执行，例如学术研究中自动整理文献并生成初稿。- 分享功能：支持将任务打包为HTML或上传云端，便于团队协作。

2025-03-26 20:31:10 5247

原创探索AI编码的最佳实践

有限制的token就像人的工作记忆，人的工作记忆也是有限的，那么人类是怎么解决这个问题的呢？当需要多人协作的时候，会把任务的边界制定清楚，划分模块，定义接口。因为AI根本没有全局观念，特别是当项目体量变大的时候，你让AI去修改某些东西，他根本就不会去想已经实现了什么东西，时时刻刻都表现得像个刚加入团队的新人，用起来十分恼火。人具有自适应性，可以自发组织，具有很强的应对变化的能力，所以当我们发现方法1并不符合实践出真知、螺旋上升等认知规律的时候，我们发展出了方法234等，AI目前似乎并不具有这种自适应性。

2025-03-15 12:36:24 293

原创 Cursor+MCP工具，到底好不好用？

就目前的情况来看，如果Cursor没有对这些工具进行集成，而且你对这些工具完全不知道如何下手的话，让AI来帮助你是一个很好方式，但如果Cursor已经支持了或者你亲自用起来飞快，那你并不需要它。只要我们愿意，这个世界都可以为我们而设计，这种不依赖身体进化而使用“外挂”加载的方式，就是人的方式！感觉目前的MCP工具更多局限于软件、互联网、移动端、大模型领域，不知道什么时候可以看到端侧模型用MCP协议来控制物联网、机器人，但也可能不会，硬件有自己的技术栈，也许其他协议会取代MCP的地位，主要看历史怎么发展了。

2025-03-14 17:43:05 1765

原创如何在Cursor中调用MCP工具？

整体的思路是使用Cursor作为客户端，通过MCP协议，访问MCP服务端，调用MCP服务端暴露的两个工具 get-alerts 和 get-forecast，这两个工具会联网获取天气预警和天气预报。后来发现是版本的原因，在新版本中，Composer被藏到了聊天框的左下角，并改名为“Edit”。至此，我们已经完整体验了从搭建MCP服务，到在Cursor中通过MCP客户端调用MCP服务来使用工具的完整过程。下一篇，让我们来玩一些更实用的MCP工具，探索利用Cursor和MCP开发的最佳实践。

2025-03-12 10:52:49 5190

原创 MCP：AI 应用的“USB-C”端口，为啥要用它？

MCP的主要价值在于它提供了一种通用的接口，简化了不同工具和数据源的集成。所以，如果你的目的是快速开发，应该尽可能使用支持MCP客户端的IDE（比如Cursor），并优先寻找并配置合适的MCP服务（而不是重复造轮子）。官方文档似乎并没有体现，MCP作为通用协议，对大模型和资源/工具的调用进行了解耦，并提供了安全性保障的能力。注意，在你决心开发自己的Server之前，一定要先看看下面这些网站，很多工具的MCP服务都是拿来即用的。下一篇，实战一下，如何在Cursor中通过配置MCP服务来调用工具。

2025-03-11 19:38:09 681

原创 OpenManus技术测评：3小时开源，无需10万邀请码，真有传说中那么好吗？

也不尽然，不论是用Cursor还是OpenManus复现，都只是复现了其核心功能，并未达到消费级产品的程度。个人认为，至少在2025年，产品界在通用性、专业性和易用性之间，存在一个不可能三角：又通用又易用的，不一定专业；又能通用又能专业使用的，需要用的人Know-how，也就是不那么容易使用。可以看到已经知道要查的URL了，然后它决定下载安装浏览器自动化工具playwright再继续干活，太疯狂了，我只是想简单看看天气的查询结果而已。不过它的展现出来的思维能力和使用工具的能力还是不错的。

2025-03-08 09:11:04 604

原创 Manus作为首个宣称能“直接交付任务成果”的通用AI Agent技术上是怎样实现的？和AutoGen有什么区别？

在传统的人工智能（AI）系统中，智能体（Agent）的架构通常包含 Planner（规划器）和 Executor（执行器）两大核心组件。• 工具调用优化：通过大模型操作系统（LLM OS）整合多模态输入（文本、图像、语音）和工具API，实现跨平台操作（如自动生成PPT时调用设计工具和数据分析库）。当前数据显示，Manus在需要深度行业知识整合的场景（如医疗报告分析）表现更优，而AutoGen在需要快速原型开发的场景（如初创公司MVP搭建）更具灵活性。团队计划通过“自主创造工具”突破此瓶颈。

2025-03-07 10:27:26 1482

原创 Multi-Agent释放AI生产力：你加上AI就是一个团队！

1只程序猿 + AI = 1家软件公司。真人实测，如何用Multi-Agent（多智能体）AutoGen打造只有AI的软件公司。

2025-03-06 14:12:06 566

原创用deepseek自动追热点写文章，躺着做自媒体不是梦

温习了一遍《爆款小红书》，突然悟了，只有爆款才能教出爆款，只有第一才能教出第一。也就是说，如果在这个基础上加入MultiAgent框架，赋予它策划、编辑、主任的职责，它就是一个编辑部。感觉写书感觉也不是很难了，调整了一下代码，只需要给一个标题《DeepSeek私有化部署实战》。让DeepSeek自己列目录，自己写文章，比我写的好，还比我写得快......当然，作为一名资深程序员，主打一个能用代码+AI解决的事情，绝不动手解决。如果他可以自己写，他应该也可以自己审查，审查出问题，打回去，让他自己重写。

2025-03-04 11:52:53 720

原创 SLAM会与GIS深度融合吗？

GIS的未来是无人机、自动驾驶和AR吗？

2025-03-04 11:47:18 716

原创记录编译Nerf-SLAM的过程

修改了/home/cici/nav2_ws/src/nerf_slam/NeRF-SLAM/thirdparty/instant-ngp/CMakeLists.txt。修改代码/home/cici/nav2_ws/src/nerf_slam/NeRF-SLAM/fusion/nerf_fusion.py。更改了Path没用，因为/usr/bin/nvcc 指向了toolkit下的nvcc。不行，在pytorch官网升级了版本，应该是cuda11.5与gcc11版本不兼容。需要更换显卡。

2023-11-21 15:24:11 405

空空如也

空空如也