dlv2026-CSDN博客

原创 RAGFlow工作流使用的Sandbox环境

在 RAGFlow 的 Agent 工作流中，`Code` 组件用于执行 Python / JavaScript 代码。它看起来只是一个普通组件，但实际运行时依赖一个独立的代码执行环境：RAGFlow Sandbox。本文记录一次RAGFlow Sandbox完整的安装、测试和排障过程。

2026-05-10 21:21:14 376

原创 RAGFlow · 第 4 章：第五节 Agentic-RAG 实验：它不是更会回答，而是更会决定怎么回答

本文探讨了Agentic-RAG在企业AI应用中的核心价值与实践方法。通过结合Self-RAG和Adaptive-RAG技术，构建了一个具备智能决策能力的RAG工作流，能够动态处理问题分类、证据评估、查询改写、追问澄清和高风险控制等关键场景。实验设计了15道涵盖5类典型问题的测试集，重点验证系统在复杂业务环境下的判断力与可靠性。研究表明，Agentic-RAG的核心优势不在于更"聪明"的回答，而在于更精准的决策机制——包括问题分流、证据评估、风险管控等能力，同时保持系统的可调试性和合规性

2026-05-08 23:24:47 562

原创 RAGFlow · 第 4 章：第四节 Adaptive-RAG：先判断问题该走哪条路

本文介绍了Adaptive-RAG在企业级应用中的策略路由机制。主要内容包括：策略路由的意义：不同于传统RAG的统一处理流程，Adaptive-RAG能根据问题类型选择不同处理路径，特别适用于企业复杂文档场景。技术框架：通过"问题分析+策略选择+分支执行"的流程，将问题分类为知识库检索、高风险流程、追问补充等不同处理分支。实验设计：构建火电厂设备运维和安全隔离知识库，验证系统能正确识别不同类型问题并选择相应处理策略。实现方案：详细展示了基于Query Classifier的问

2026-05-07 00:11:54 513

原创 RAGFlow · 第 4 章：第三节 Self-RAG：补充说明和进一步思考Agentic RAG的组成

本文探讨了Self-RAG工作流中意图识别与Query改写的内在联系。研究发现，Self-RAG通过证据评估分支（Evidence Grader）和改写再检索分支（Query Rewriter）已内置这两种能力，无需独立组件。证据评估分支实现了意图识别的分流判断功能（回答/改写/不足），而改写分支则执行检索优化。相比企业级RAG的多路由系统，Self-RAG专注于单一知识库场景下的自我修正能力验证，采用"检索-判断-改写"的闭环流程更符合其设计理念。研究指出，额外添加独立组件会干扰核心实

2026-05-06 00:57:48 559

原创 RAGFlow · 第 4 章：第二节 Self-RAG：让系统先判断证据是否足够

这篇文章介绍了一个在企业AI应用中实现Self-RAG（检索增强生成）工作流的实验。实验目标是验证当第一次检索结果不足时，系统能否正确判断不足原因并进入二次检索分支。文章详细阐述了知识库配置、工作流设计原则和具体实现方法，强调Self-RAG的核心价值在于证据不足时的智能处理能力，而非简单的多次检索。实验结果表明，在高质量知识库中基础检索可能已足够，Self-RAG主要解决证据缺失时的精准补检或泛化重检问题。文章提供了完整的工作流文件和测试方法，方便读者复现实验。

2026-05-05 15:58:00 756

原创 RAGFlow · 第 4 章：第一节 Agentic RAG 的目标、局限和适用场景

摘要（149字）： Agentic RAG通过动态流程编排解决企业RAG的核心痛点——普通RAG无法区分问题类型，导致高风险场景误答或证据不足时硬答。其核心价值在于：1）证据不足时主动拒答或追问；2）对复杂问题分解检索与综合；3）高风险问题强制进入安全流程。适用场景集中于模糊查询、多跳推理及合规问答，但对简单FAQ类问题可能过度设计。实际效果需结合评测集验证，平衡控制能力与系统复杂度。企业需根据问题风险等级选择普通RAG或Agentic方案。

2026-04-27 23:53:09 516 1

原创 RAGFlow · 第 3 章：第六节 MinuerBridge安装配置与运行使用

RAGFlow 是一款开源 RAG 引擎，核心能力是把文档解析、切片、检索、重排和大模型问答串成完整链路。MinerU 是 OpenDataLab 团队开发的高精度文档解析引擎，擅长把 PDF、图片、DOCX 等非结构化文档转换为 Markdown、JSON 等机器可读格式。MinerUBridge 的目的很明确：在 RAGFlow 中引入 MinerU，但不把 MinerU 直接塞进 RAGFlow 主环境。

2026-04-27 14:27:31 548

原创 RAGFlow · 第 3 章：第五节实验Vector/Keyword Weight (混合搜索权重)

本文通过实验测试了RAGFlow中向量权重(Vector Weight)与关键词权重(Keyword Weight)的不同配置对检索效果的影响。使用火电厂业务文档作为测试数据，设置了四组不同权重参数（纯关键词组、纯向量组、两组混合权重）进行对比。实验发现：纯关键词组擅长精确匹配编码但语义理解不足；纯向量组语义关联能力强但容易过度解读；两组混合权重表现均衡，0.3向量+0.7关键词组合在保持精确匹配的同时提升了语义理解能力，0.7向量+0.3关键词组合则更擅长业务归纳。结果表明需要根据具体场景需求选择合适的权

2026-04-26 23:42:51 360

原创 RAGFlow · 第 3 章：第四节实验Similarity Threshold (相似度阈值)

文章摘要：本文探讨了RAGFlow中Similarity Threshold（相似度阈值）参数的作用与调优策略。通过火电厂知识库的对比实验，测试了0.05、0.30和0.70三种阈值设置的表现。结果显示：0.05阈值召回全面但混杂无关内容；0.30阈值平衡了召回率和准确率；0.70阈值则过于严格导致漏检。建议根据知识库特点采用渐进式调参：从0.20-0.30开始，结合业务需求调整，专业知识库可尝试0.40-0.50，避免盲目使用极端值。阈值选择需考虑embedding模型、文本分块方式等多重因素，最终目标

2026-04-26 23:21:59 383

原创 RAGFlow · 第 3 章：第三节实验Chunk Token Num & Overlap (切片与重叠)

本文探讨了RAGFlow中Chunk Token Num和Overlap参数对文档处理的影响。实验表明：1) 小Chunk(50)能保留精确细节但易丢失上下文关联，适合精确信息检索；2) 大Chunk(1024)可保持语义连贯性但可能引入噪音，适合多跳推理场景；3) 10-20%的Overlap能有效修复指代断层问题。针对不同文档类型（表格、技术文档、协议文本），需灵活调整参数组合：表格内容需确保完整解析，技术文档适合大Chunk保持逻辑链，协议文本则需要中小Chunk配合Overlap来平衡细节与连贯性。

2026-04-26 22:52:02 326

原创 RAGFlow · 第 3 章：第二节实验Chunk Method (解析方法与布局识别)

本文是《RAGFlow企业AI工程师指南》系列的第2章第2节，聚焦Chunk Method（解析方法与布局识别）的实验研究。通过对比Naive、Paper、General（配合deepdoc/MinerU）三种解析策略在企业复杂文档处理中的表现，实验发现：Naive解析导致表格碎片化；Paper解析存在跨页表格截断问题；General+MinerU组合能正确处理复杂表格（包括合并单元格和多页表格），同时保持文字段落完整性。实验证实ChunkSize参数不影响已有语义边界的内容解析。建议企业文档处理采用Gen

2026-04-26 22:27:38 518 2

原创 RAGFlow · 第 3 章：第一节 RAGFlow 配置参数全景图与实验结论

列举RAGFlow配置参数和优先级; 前置了通过实验获得的关键参数的综合配置

2026-04-26 21:43:17 528

原创 RAGFlow · 第 2 章：第一节从目录、启动链路到核心工作流

本文仅介绍 RAGFlow 的基本框架、代码目录、启动链路与核心工作流程，旨在后续实验开始前，对该系统的整体架构与处理流程形成概括性认识。

2026-04-26 20:28:52 457

原创 RAGFlow · 第 1 章：安装部署与基础配置——从零跑通第一个 RAG Pipeline

本文是RAGFlow系列教程的第一章，主要介绍如何从零开始部署RAGFlow v0.24.0并构建基础RAG流程。文章首先解析了RAGFlow的四层运行时架构：前端交互层、后端核心层、基础设施层（包含MySQL、MinIO等Docker服务）和离线模型层。随后详细说明了系统启动后的数据流转过程，包括文档上传、解析、索引建立以及问答检索的全流程。文章还提供了完整的安装部署指南，涵盖Docker环境配置、服务启动和基础功能验证，并附有常见问题解决方案。通过本章，读者可以全面了解RAGFlow的运行机制，并完成第

2026-04-24 12:35:02 423

原创语音转录使用Whisper和SenseVoice-Small对比实测

摘要： 2026年开源中文语音转录技术迎来突破，阿里达摩院的SenseVoice模型通过非自回归架构和多模态联合建模（融合语音识别、情感分析、噪声过滤），显著提升高噪场景（如游戏直播喷麦）的转录准确率。相比传统Whisper模型，SenseVoice在延迟（<150ms）、抗干扰（CER 6.1%）和功能扩展（标记笑声/喷麦事件）上全面领先。工程实践中，结合Silero VAD前置降噪和ONNX加速，可在RTX 3060上实现多路直播流实时转录，标志语音技术向多模态语义理解跃迁。

2026-04-14 23:29:36 389

原创 MinerU、Docling 和 DeepDoc，带你彻底告别复杂 PDF 解析的深坑

要彻底解决 RAG 数据清洗的噩梦，我们必须从底层架构上重塑文档解析逻辑。今天，我们将硬核拆解当前全球开源社区中最强悍的三款知识抽取神器——MinerU、Docling 和 DeepDoc，带你彻底告别复杂 PDF 解析的深坑。

2026-04-14 23:01:04 678 2

原创工程化实战：Agentic CRAG解决大模型幻觉

本文探讨了大模型在医疗等关键领域中的"幻觉"风险及其工程解决方案。通过一个急性心梗患者因错误用药建议而丧命的案例，揭示了传统大模型基于概率生成的致命缺陷。文章剖析了大模型产生幻觉的底层机制，指出其本质是概率序列预测而非逻辑推理。针对传统RAG技术的两大痛点——PDF解析灾难和拓扑信息丢失，提出了2026年新一代的Agentic CRAG架构。该架构通过智能路由、多跳检索和纠错智能体实现交叉验证，结合知识图谱和状态机设计，将幻觉率降至1.2

2026-04-14 22:48:49 466

原创 RAGFlow · 第 0 章：企业 AI 工程师需要掌握 RAGFlow

RAGFlow 是当前最值得深入掌握的开源 RAG 引擎。这不是因为它完美，而是因为它在企业知识管理这个场景上，覆盖了从文档解析到 Agentic RAG 再到生产部署的完整链路。这篇文章作为前言将回答两个问题：为什么（WHY）和做什么（WHAT）。

2026-04-14 22:19:45 647

原创从「收藏吃灰」到「知识入库」：用 AI 流水线把微信视频号收藏变成 Obsidian 知识库

本文介绍一套完整的 AI 自动化方案：批量下载视频号收藏 → 语音转文字 → 智能分类 → 生成结构化笔记 → 导入 Obsidian 知识库。全程本地 GPU 运行 Whisper，配合大模型做内容分析和分类，262 条短视频从原始视频变成可检索、可跳转、可行动的知识体系。

2026-04-12 21:53:18 1215

原创 AI量化Agent黑科技：暴力拆穿LLM作弊陷阱

基于 LangGraph 的实现长程量化 Agent，并引入软件工程中极度严苛的 Harness CI/CD 评测框架，构建一套暴力的沙盒拦截机制。我们将通过真实的代码和血淋淋的失败案例，揭开普通人利用 AI 搞钱的底层真相。

2026-04-11 23:46:53 343

原创 AI量化交易Agent：长程记忆与暴力评测

以工程实现的视角，硬核拆解如何从零手搓一个具备长程记忆与反思能力的**量化交易 Agent**，并引入严格的**Harness 评测框架**，对不同基座模型的交易表现进行暴力压测，揭示普通人利用 AI 进行量化交易的真正护城河。

2026-04-11 23:34:39 412

原创 LangGraph + Harness 评测体系，实现一个能够执行长程任务的 AI 量化 Agent

大语言模型（LLM）结合 Agent 架构，在金融量化领域掀起降维打击的根本原因。今天，我们将完全抛开烂俗的“AI理财”营销话术，从极客与系统架构的视角，硬核拆解如何利用 LangGraph 与 Harness 评测体系，手搓一个能够执行长程任务的 AI 量化 Agent，实盘跑赢 CPI。

2026-04-11 23:21:21 376

原创低显存实战：用Harness榨干量化Agent极限长程红利！

本文将以极度硬核的工程视角，带你实现在 24GB 甚至 16GB 低显存环境下，通过底层量化与编排框架（Harness）的深度咬合，榨干大模型长程任务的红利。这不是一篇简单的教程，而是一份低算力对抗高算力通胀的实战宣言。

2026-04-11 22:51:02 378

原创用GLM实现火电智能拟票Agent，告别死记硬背规程

火电智能拟票Agent：基于GLM大模型的零代码自动化解锁方案摘要：本文提出了一种基于GLM大模型的火电厂智能拟票Agent系统，突破传统RAG技术在工业场景的局限。系统采用Plan-and-Solve架构，通过多步推理与图遍历技术解决操作票的时序依赖和空间互锁问题。核心创新包括：1) 树状结构的高级RAG知识外挂；2) 基于图论的防误校验沙箱；3) SoM多模态现场核验技术。实测显示，该系统将拟票耗时从人工45分钟缩短至30秒，安规覆盖率达99.5%，同时保持严格的"人在回路"安全

2026-04-09 23:35:11 321

原创 AI全自动解析复杂工程图纸与防造假质检知识库实战

工程质检防造假系统技术解析摘要：针对大型基建工程中常见的文档造假问题，本文提出了一套基于视觉大模型（VLM）和智能体检索增强生成（Agentic RAG）的防造假质检系统。系统通过多模态解析技术处理CAD图纸、质检报告等异构工程文档，利用Set-of-Mark技术保持空间上下文关系，结合知识图谱实现材料规格的交叉验证。相比传统OCR方案，该系统能有效识别PS篡改痕迹和逻辑矛盾，在桥梁、航空等零容错场景中提供主动式审计能力。核心架构包含文档解析引擎、多模态向量数据库和基于LLM的推理审计模块，通过代码实例展

2026-04-09 23:21:06 311

原创火电审计Agent，大模型+RAG降维打击专治台账乱象

传统的事后审计在这类系统性造假面前形同虚设。为什么？因为传统审计是“人盯系统”，而造假者是“系统骗人”。当几百个传感器的高频时序数据被平滑处理，当入库台账与消耗台账之间的逻辑闭环被精心构造的谎言填补，查账就变成了洋流里捞针。真正的解法，必须升维。今天，我们不谈概念，直接从系统架构设计到代码实现，手搓一个基于大语言模型（LLM）与检索增强生成（RAG）的**硬核火电智能审计Agent**。我们将通过LangGraph重构审计工作流，用图数据库与向量检索的交叉比对，对火电行业的“台账毒瘤”实施真正的降维打击

2026-04-09 22:14:20 373

原创 GLM全自动开发企业知识库--对接第三方OA数据

企业知识管理正经历数据范式变革。传统外包方案难以应对非结构化数据挑战，而基于GLM-5.1大模型和Dify工作流的自研方案可实现：智能数据融合：通过Agentic RAG架构动态连接本地知识库与第三方OA系统，实现实时数据拉取和清洗自动化工作流：利用GLM-5.1的意图识别和工具调用能力，自动路由查询请求并完成跨系统数据整合显著优势：相比传统方案，该架构具备更低研发成本、更高数据安全性、更优检索准确率和持续演进能力关键突破在于将大模型作为系统调度核心，实现知识管理的全自动化与智能化升级。

2026-04-09 21:42:01 430

原创用GLM-5.1全自动生成“文档清洗入库“脚本，一键榨干复杂PDF！

摘要：RAG技术在企业应用中面临数据验证与质量难题。本文提出利用GLM-5.1大模型结合Docling和MinerU两大开源解析工具，构建全自动PDF清洗入库方案。通过对比分析不同解析方案的性能差异，展示了新型技术在处理复杂文档上的优势。最后给出基于GLM-5.1自动生成的Python实现代码，实现从PDF解析到向量数据库入库的全流程自动化，有效解决非结构化数据处理痛点。

2026-04-09 21:30:41 445

原创 GUI Agent：AI如何“看图操作“

本文将剥离所有营销话术，从底层技术原理出发，深度拆解VLM（Vision Language Model）的Action Space设计、视觉语义映射机制，以及当前工业界与开源社区的真实进展。

2026-04-08 21:35:36 194

原创全自动AI分析师: Headless Browser暴力抓取全网

在金融量化交易的战场上，信息的获取速度与处理深度决定了生杀大权。传统的金融终端如Bloomberg或Wind虽然强大，但其封闭的生态和高昂的门槛让独立交易员望而却步。与此同时，基于传统爬虫的数据采集在面对反爬虫验证、动态DOM渲染以及非结构化图表数据时，往往显得力不从心。我们正处于一个范式转移的临界点：**Agentic RPA（代理式流程自动化）**。这不仅仅是脚本录制回放，而是赋予无头浏览器以“视觉”和“大脑”。本文将从技术架构的底层逻辑出发，手搓一套基于 **Headless Browser** 与

2026-04-08 21:22:46 150

原创解析数字打工人: Agentic RPA的架构

当整个AI社区还在为GPT-5的发布日期打赌、为o1的推理能力惊叹时，Anthropic悄无声息地扔出了一枚战术核弹——**Computer Use**。这不是什么"AI助手帮你写周报"的玩具级应用，而是一次对**人机交互范式**的底层重构。Claude 3.5 Sonnet不再只是那个陪你聊天的LLM，它学会了"看"屏幕、"动"鼠标、"敲"键盘。它从Chatbot进化成了Agent，从"建议者"变成了"执行者"。本文将剥离所有营销话术，从技术原理、系统架构到实战部署，为你完整拆解这套"赛博打工人"

2026-04-08 21:10:47 311

原创 Computer Use: AI直接接管电脑

Claude 通过Computer Use，让AI不再只是写代码，而是像人一样看屏幕、动鼠标，直接接管你的电脑！它能把所有图形界面秒变API，完美解决传统RPA一改界面就瘫痪的痛点。不用苦等GPT-6，桌面级贾维斯真的来了！视频手把手教你部署，但千万注意：一定要在Docker沙箱里跑，

2026-04-08 20:55:59 442 2

原创 VLM+DOM: 打造最强Agentic RPA接管浏览器

摘要：本文探讨了构建工业级浏览器智能代理（Browser Agent）的核心挑战与解决方案。传统基于DOM解析的自动化工具面临三大痛点：HTML噪声、动态元素脆弱性及Canvas/Shadow DOM黑盒问题。作者提出"Omni-Browser-Core"混合架构，通过DOM与视觉语言模型（VLM）双轮驱动，实现感知与执行解耦。系统采用Accessibility Tree简化DOM表示，结合ReAct框架实现决策闭环，并利用视觉映射技术解决Canvas交互难题。文章不仅开源了核心实现逻辑

2026-04-08 20:43:26 320

原创 AI Agent如何像人一样“看“屏操作？

摘要：AI视觉操控技术的突破与挑战 AI正从自动驾驶（如特斯拉FSD）转向计算机界面操控，三大科技巨头在2024年相继推出"Computer Use"系统。核心技术包括： Set-of-Mark方法：通过边界框标记界面元素，实现像素级定位混合动作空间：结合离散动作分类与连续参数回归，提升操作精度分层记忆架构：通过工作记忆、情景记忆和语义记忆管理复杂任务上下文尽管技术取得突破，但电竞等需要即时反应和策略调整的场景仍难以被AI完全替代。该技术面临操作精度、上下文管理和实时决策等核心挑战

2026-04-08 20:31:18 381

原创 Faker的极限手速 vs 马斯克的视觉AI: 传统RPA与AI Agent的对比

文章摘要： AI Agent正从“对话者”进化为“操作者”，如Anthropic的Computer Use API让Claude能像人类一样操作计算机。其核心是VLM Action Space技术，通过Set-of-Mark标注连接视觉理解与动作执行，实现精准的鼠标点击、键盘输入等操作。与传统RPA依赖硬编码选择器不同，AI Agent基于视觉语义动态适应界面变化。工程实现上，Anthropic采用闭环系统，结合屏幕截图、多模态编码和强化学习动作空间，使Agent能自主完成复杂任务。这一突破标志着AI从被动

2026-04-08 20:15:35 391

原创 VLM+无头浏览器打造自动化RPA，彻底告别接口依赖

摘要：传统企业自动化受限于API缺失和DOM选择器的脆弱性，VLM驱动的智能浏览器Agent带来范式突破。通过视觉-语言模型理解网页语义而非依赖DOM结构，Agent能自适应UI变化。核心技术包括Accessibility Tree提取语义、Set-of-Mark标注实现精准定位、原子化Action Space设计，以及LangGraph状态管理。生产级架构整合认知决策层（多模态VLM）、感知层（无头浏览器+SoM）、执行层和记忆层，实现鲁棒的企业自动化方案，维护成本较传统RPA降低60%以上。（149字）

2026-04-08 19:29:04 386

BCM7403 - High-Definition Cable Set-Top Box Solution

空空如也