CV视觉-CSDN博客

原创面试官问：RAG 系统里面最难搞定的是哪个部分？

这里也分享给大家我的一些思考。我先说结论：几乎所有人第一次做 RAG，都会被这套标准流程迷惑住：用户提问 → 文档检索 → 拼接上下文 → 交给大模型生成。代码很好写，十几行 Python + 一个向量库 API 就能跑通。但你真要让它“在生产环境下稳定地答出好答案”，难度是成倍增长的。一、RAG 不是算法问题，而是“系统问题”RAG 的本质是一个系统性工程，而不是一个单点算法。它的难点是——每个环节看似简单，但环环相扣，任何一环的瑕疵都会直接导致答案“看起来不太聪明的样子”。

2025-11-05 15:32:52 500

原创谷歌万字长文解密：从原型到生产，构建可靠AI Agents的全栈技术指南

谷歌云（Google Cloud）于近期发布了一份长达60余页的纲领性文件——《初创公司技术指南：AI Agents》。这并非又一份高谈阔论的行业白皮书，而是一份深入工程实践、充满“代码味”的全栈技术路线图。这份指南的核心论点是：构建真正有价值的AI Agent，早已超越了模型选型和提示词工程的范畴，它是一门。谷歌为此提出了一个以为核心，以为部署底座，以为运维理念的完整、自洽的技术体系。

2025-11-04 15:28:04 977

原创关于RAG系统在多轮对话中的问题改写(优化)方法—使用历史记录改写问题

基于大模型的RAG多轮对话功能，其检索增强的流程和实际业务的场景可能会存在一定的冲突，而这个平衡点却很难把握。在之前的文章中有讲过一个RAG检索优化的方法论，简单来说就是通过对问题进行改写和优化；比如说用户输入一个问题query，但由于我们无法控制用户的行为，因此用户输入的内容query可以是任何东西，包括可能存在错别字，语义错误，甚至是一些无意义内容。面对这种情况，特别是在多轮对话过程中会导致一个很严重的问题，那就是会严重影响到数据召回的效果。

2025-11-04 13:34:31 554

原创清华团队提出DeepDive：深度搜索Agent再迎新突破

清华大学与东北大学团队提出DeepDive方法，通过知识图谱自动生成复杂问答数据集和端到端多轮强化学习，显著提升开源大语言模型的深度搜索能力。实验显示，DeepDive-32B在BrowseComp测试中准确率达14.8%，使用附加半自动数据后提升至22.2%。该方法突破了传统问答数据的局限性，通过模糊实体属性和多跳路径构建难题，并引入强化学习优化工具使用效率。尽管存在"过度搜索"等问题，但研究证明工具调用扩展能有效增强长程推理能力，相关数据和代码已开源。

2025-10-30 17:27:02 810

原创一文读懂 Pre-training 预训练：大模型的「基础教育」究竟是什么？

而预训练相当于 “造了一个通用的基础模型”，后续不管是做 “客服 AI”“写作 AI” 还是 “分析 AI”，都能在这个基础上微调 —— 就像我们不用每次盖房子都从 “烧砖” 开始，而是可以用现成的 “预制板”，大大降低成本和时间。这需要模型理解 “时间线”“逻辑连贯性”，甚至需要一点 “想象力”—— 而这些能力，正是从预训练中积累的。要做好 “完形填空”，模型必须理解上下文逻辑 —— 它得知道 “天气” 后面常接 “好”“坏”“热”，“适合去” 后面常接 “公园”“爬山”“散步”。

2025-10-30 17:07:18 580

原创大模型面试核心20问，助你秋招披荆斩棘

Transformer模型本身无法感知词的顺序，因为它们是并行处理词的。位置编码通过为每个词元（token）添加一个代表其在句子中位置的信号来解决这个问题。这确保了“dog bites man”（狗咬人）不会与“man bites dog”（人咬狗）混淆。Transformer并非只进行一次注意力计算，而是并行使用多个“头”（heads）。每个头可以关注不同类型的关系——一个可能关注语法，另一个可能关注语义。将它们的结果结合起来，能让模型对语言有更全面的理解。

2025-10-28 17:41:04 1059

原创 AI Agent案例实践：三种智能体开发模式详解之一（手写代码）

本文介绍了基于AI Agent的高考数据分析实践案例，通过三种开发模式（手写代码、LangChain框架、QwenAgent框架）实现从自然语言查询到结构化数据分析的完整流程。案例以2016-2024年高考数据为样本，通过RAG检索、NL2SQL转换、数据查询和智能分析等环节，展示了如何构建一个能理解用户自然语言查询并返回分析结果的AI系统。文章详细阐述了手写代码实现方案，包括元数据管理、语义检索、SQL生成和数据分析等核心模块的设计与实现，为读者理解AI Agent开发提供了具体参考。

2025-10-28 14:30:37 625

原创面试官问：RAG有哪些优化手段？

大家好，我是CV君。今天聊一个在大模型面试中的问题——别看这道题只有一句话，它其实是一个，往往能看出候选人到底是“看过几篇博客”还是“真做过落地项目”。一、RAG到底在优化什么？在聊优化之前，先把问题本身理清楚。RAG（Retrieval-Augmented Generation）是的简称，核心流程是：用户提出问题；系统在知识库中到相关文档；把检索结果拼接进Prompt；交给LLM进行生成。：召回了一堆不相关的文本；：遗漏了关键内容，模型“答非所问”；：模型胡说八道，或者逻辑混乱。

2025-10-27 16:20:53 872

原创智能体综述：探索基于大型语言模型的智能体：定义、方法与前景

本文系统综述了基于大型语言模型（LLM）的智能体研究进展，指出其作为实现通用人工智能（AGI）的重要路径。文章从单智能体系统（规划、记忆、反思等核心组件）和多智能体系统（角色协作、通信机制）两方面构建研究框架，对比分析了LLM智能体与强化学习智能体的优劣。同时介绍了主流评估数据集（HotpotQA、ToolBench等）和测试平台（AgentBench等），详细探讨了其在自然科学、社会科学等领域的应用前景。最后提出持续学习、多模态融合等发展趋势，并指出LLM固有约束、安全信任等关键挑战。

2025-10-27 15:35:25 751

原创《Hello-Agents》项目正式发布，一起从零学习智能体！

《Hello-Agents：从零构建AI原生智能体的实战指南》 Hello-Agents项目提供系统性学习路径，帮助开发者从大模型使用者成长为智能体构建者。教程包含五大模块：基础知识、智能体构建、高级技术、综合案例和毕业设计，涵盖ReAct范式、多智能体协作、记忆系统等核心技术，并通过旅行助手、赛博小镇等实战项目巩固技能。项目特别强调AI原生Agent开发，区别于传统软件工程类Agent，配有完整代码实现。

2025-10-25 13:24:27 1053

原创 AI 编程 Trae ，有重大更新！用 Trae 做了个图书借阅网站！

近期AI大模型更新频繁，如DeepSeek降价、智普清言发布GLM-4.6。字节AI编程工具Trae内置GLM-4.6模型，文章演示了用其Builder模式快速搭建图书借阅网站的全过程，包括需求分析、系统设计、前后端实现和数据库构建。项目采用Vue+SpringBoot/Node.js+MySQL技术栈，实现图书分类、搜索、借阅登记等核心功能。作者认为国产大模型表现优异，建议读者关注其公众号获取更多AI大模型学习资源，包括教程、案例和前沿动态。

2025-10-25 10:50:14 879

原创刷屏了，吴恩达又一AI大模型力作！（附PDF）

该手册凝聚了专家们的心血，内容丰富，共计 373 页的PDF，从基础知识到高级应用，一一为你剖析。不论你是刚接触人工智能的新手，还是刚刚步入研究生阶段的学者，本书都将是你理想的导航。通过本手册，你将学会如何利用 ChatGPT 提供的 API 开发一个智能问答系统，涵盖大语言模型的基本规范、输入分类与监督评估、思维链推理与链式提示处理，以及系统输出的检查与评估。无论你是为了学术研究，还是商业应用，本书都将为你打开大模型技术的大门，引领你走向人工智能的前沿。相信这本书可以很好的开启你的大模型学习之旅！

2025-10-24 17:31:48 187

原创一文入门 agent：从理论到代码实战

智能体（Agent）是一种能够感知环境并自主决策的智能系统，其发展经历了三个阶段：早期的规则驱动系统（1950s-1990s）如专家系统MYCIN；强化学习时代（1990s-2020s）的AlphaGo；以及当前基于大语言模型（LLM）的智能体时代。LLM Agent采用两种主流架构：ReAct模式通过"思考-行动"交替循环完成任务，适合简单任务；Plan-and-Execute模式先规划后执行，适合复杂任务。

2025-10-24 13:50:59 740

原创某乎200W人关注的问题“对神经网络某一层做了小改进，效果却提升显著，可以发论文吗？”

在知乎上刷到一个特别有意思的讨论：对神经网络某一层做了小改进，效果却提升显著，可以发论文吗？工作量是不是太小。作为一个在科研路上摸爬滚打过的“过来人”，我总结这种情况能不能发论文的三个关键要点。在正式介绍之前，先跟大家看一份我精心整理的，既有PDF文档，也有对应的代码，主流模型和各种变体都涵盖了。可以帮助大家快速理解并掌握神经网络！尤其是要仔细检查，有没有不小心把测试集的数据混进训练集这种低级失误。别小看这个步骤，很多科研中的“坑”都是从这里开始的。只有确保代码没问题，咱们才能进入下一个验证阶段。

2025-10-23 16:34:07 320

原创从零实现 vLLM (1.4）：RMSNorm 如何解决训练不稳定

本文深入解析了Transformer架构中的RMSNorm归一化技术。首先介绍了归一化技术的历史演进，从解决内部协变量偏移问题的BatchNorm，到适用于序列模型的LayerNorm，再到更高效的RMSNorm。重点分析了RMSNorm的设计原理：通过省略LayerNorm中的中心化步骤，仅保留缩放操作，在保持效果的同时减少25%计算量。文章详细解读了RMSNorm的数学公式和工程实现，包括标准计算和融合残差连接的优化版本。

2025-10-23 13:40:34 895

原创必看！大模型训练圣经《从头训练大模型》PDF

一直以来，我都在专注分享 AI 与大模型领域的干货 —— 从基础原理拆解到进阶实战教程，从开源工具测评到商业落地思考，每一篇内容都尽量打磨得细致实用，希望能帮大家快速跟上技术浪潮。3. 模型和数据集的扩展性：介绍了LLMs的扩展性，包括模型大小和训练数据量的平衡，以及如何根据训练计算预算和推理延迟要求确定模型和数据大小的最佳组合。5. 训练中的挑战和策略：包括硬件故障、训练不稳定性等问题，以及如何应对这些问题的策略，例如批大小、学习率调度、权重初始化等。使用商业LLM的API，例如GPT-3。

2025-10-22 16:25:08 196

原创从零实现 vLLM (1.3）：如何加速 Attention 计算

本文深入解析了FlashAttention如何通过分块计算和在线Softmax技术来加速Transformer中的注意力机制。文章首先用图书馆案例形象化说明注意力计算的三步骤：QK匹配、Softmax归一化和加权融合V矩阵。随后详细介绍了FlashAttention的核心创新——将传统3次遍历的计算过程融合为单次CUDA内核执行，通过避免中间结果写入全局内存来提升效率。文章还分析了Prefill和Decode两个阶段的具体实现，包括varlen存储、块表管理和KV缓存机制。

2025-10-22 13:13:30 620

原创从零实现 vLLM (1.2）：如何实现张量并行

本文深入解析了大模型推理中的张量并行技术，重点分析了QKVParallelLinear和RowParallelLinear的实现原理。通过NumPy示例展示了列并行和行并行的计算过程：列并行将权重矩阵按列切分，每个GPU处理部分输出；行并行则按行切分处理部分输入，最终通过All-Reduce聚合结果。文章详细解读了PyTorch中相关组件的源码设计，包括LinearBase基类、ColumnParallelLinear和RowParallelLinear的实现，特别解释了QKV三合一投影的优化方法。

2025-10-21 16:45:23 1002

原创从零实现 vLLM (1.1）：并行词嵌入 VocabParallelEmbedding

在自然语言处理（NLP）和机器学习中，Embedding 是一种将离散的类别变量（例如词汇表中的单词）转换为连续的、低维度的向量表示的技术。计算机无法直接理解“猫”或“狗”这样的文本，它们需要数字化的输入。

2025-10-21 13:39:36 836

原创可视化解读--面向智能体的上下文工程

上下文工程是指在适当时间以正确格式将精准信息传递给大模型的技术体系。它涉及编写、读取、压缩和隔离上下文四个关键环节，需要像管理内存一样精心设计上下文窗口。通过构建上下文流水线，工程师能确保大模型获取最优信息输入，类似于传统机器学习中的特征工程。随着AI发展，掌握上下文工程对构建高效智能体系统至关重要，这需要系统化的学习路径和实践经验积累。

2025-10-20 17:14:17 897

原创一文读懂传统RAG、多模态RAG、Agentic RAG与GraphRAG

本文介绍了四种主流的RAG（检索增强生成）技术：传统RAG、多模态RAG、AgenticRAG和GraphRAG。传统RAG通过外挂知识库解决大模型幻觉问题，流程包括索引构建、查询与生成三阶段。多模态RAG扩展了处理能力，支持图片、音频等非文本数据。AgenticRAG引入智能体概念，实现自主检索决策和多轮优化。GraphRAG结合知识图谱提升推理能力。文章指出未来趋势是多种RAG技术融合，并推荐了相关学习资源，包括技术白皮书、实战案例和课程资料等，适合不同层次的AI学习者参考使用。

2025-10-20 15:41:57 848

原创为什么你的 RAG 系统在复杂问题上会失败？（以及如何从结构上解决这一切问题）

检索增强生成（RAG）通过引入外部知识缓解大语言模型幻觉问题，但仍面临非结构化数据混乱的挑战。检索与结构化（RAS）范式通过增加知识结构化步骤（如构建分类法和知识图谱）显著提升RAG性能。RAS包含三阶段：检索相关信息、结构化知识表示（如事件图谱）、利用结构化数据生成响应。实施方法包括分类法构建（HiExpan/TaxoGen）、实体提取（OpenIE/REBEL）和知识图谱生成（KG-gen）。RAS不仅能减少幻觉，还支持复杂推理，但面临知识图谱维护等挑战。未来发展方向包括多模态集成和跨语言知识共享

2025-10-17 17:39:57 893

原创【附提示词】Claude Code 无法达到需求？？90%以上的人提示词没写对！建议收藏！！

好提示词的黄金法则：把 AI 当作一个有经验但不了解你项目背景的程序员，给他分配任务时要足够详细、具体、有条理。好提示词 = 背景说明 + 具体需求 + 技术约束 + 输出格式📌建议把上面的提示词自检清单保存到你的笔记中,每次写提示词前检查一遍,很快你就能养成写好提示词的习惯!看到这里，相信你对本文核心主题已经有了更深入的理解。但 AI 和大模型领域更新迭代极快，单篇文章的内容很难覆盖所有细节，只能算是入门铺垫。我平时会在【小灰熊大模型。

2025-10-17 14:26:03 835

原创为何强大≠好用？（AI Agent 产品经理必看）

文章探讨了AI客服助手的架构设计如何影响用户体验和信任建立。作者通过账户支持案例，分析了四个关键架构层：上下文与记忆、数据集成、技能能力和评估信任机制。研究指出，用户信任并非来自完美准确率，而是来自AI对自身局限性的坦诚（如显示置信度、解释推理过程）。反直觉的是，承认不确定性的AI反而比自信出错的AI更受信任。文章建议从简单架构开始，逐步增加复杂性，并强调透明交互和优雅升级的重要性。

2025-10-16 16:05:19 984

原创吴恩达教授开新课了！《Agentic AI》还是亲自授课

吴恩达表示，这次课程最重要的部分是：“在与许多团队合作开发 AI 智能体的过程中，我发现决定一个人能否高效执行的最关键因素，是其推动评估（evals）和错误分析的规范化流程的能力。我们专注分享AI与大模型领域的干货内容：从基础原理拆解到进阶实战教程，从开源工具测评到商业落地思考，每一篇都经过精心打磨，帮你快速跟上技术浪潮。看到这里，相信你对本文核心主题已经有了更深入的理解～但AI和大模型领域更新迭代极快，单篇文章的内容只是“冰山一角”。7️⃣ LLM大模型系统0到1入门学习教程。4️⃣ 大模型项目源码。

2025-10-16 14:19:03 276

原创手把手教你给MCP工具做“体检”！

随着大语言模型(LLM)发展为“智能操作员”MCP协议降低了工具接入门槛但也带来安全隐患。MCPScan是一款专为MCP生态设计的开源安全扫描框架，采用静态分析与智能推理双引擎模式，能有效识别三类典型风险：任意代码执行、间接提示注入和功能描述误导。该工具通过模块化流水线工作，已在实战中发现约20个高风险服务，证明其能有效检测“文本层面恶意”转化为系统风险的情况。MCPScan为开发者、平台方和安全研究者提供系统性安全评估方案，助力构建更安全的MCP工具生态。

2025-10-15 16:57:52 726

原创 10 个 Cursor Agent 神级技巧，彻底改变你的编程方式！

Vercel AI主管分享的10个CursorAgent高效技巧

2025-10-15 15:21:33 985

原创 LangChain 官方教程：修复大模型上下文的6大实用技巧

大语言模型在处理长文本时易出现“上下文腐烂&quot”问题，表现为遗忘初始要求或事实错误。LangChain开源项目提出6种解决方案：1）RAG检索增强生成，仅提供最相关信息；2）工具筛选，按需选择工具；3）上下文隔离，任务分派专属智能体；4）上下文剪枝，去除无关内容；5）上下文总结，压缩关键信息；6）上下文卸载，使用外部存储管理记忆。这些方法可有效提升长文本处理效果，适用于AI应用开发。

2025-10-13 16:35:39 794

原创大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

对于奖励模型，子主题包括：1. 显式奖励模型与隐式奖励模型；随着自监督学习的进步、预训练语料库中数万亿标记的可用性、指令微调以及具有数十亿参数的大型Transformer的发展，大型语言模型（LLMs）现在能够生成符合事实且连贯的人类查询响应。在本工作中，我们旨在填补这一空白，将这些论文分类为不同主题，并提供每种对齐方法的详细解释，从而帮助读者全面了解该领域的现状。主要包括四个方向：1. 奖励模型，2. 反馈，3. 强化学习策略，4. 优化。反馈包括来自人类或AI的偏好和二元响应，可以是成对或列表的形式。

2024-07-25 17:06:38 844 1

空空如也

空空如也