企业知识库开发
文章平均质量分 95
系统掌握企业知识库和相关Agent开发.
dlv2026
我是有二十多年开发经验的程序员,从毕业后就开始应用软件开发工作。2026开始做一人公司,方向是AI应用和工具开发。
我最大的兴趣应该是开发,此外我也喜欢文学阅读以及历史哲学的学习。生活上我是一个乐天派,喜欢美食美酒和旅行。
未来10年我最大的理想是:回顾这一段路程,我可以坦然的说我没有碌碌无为的渡过;如果我有幸能做出帮助到其他人的产品,那是在是人生大幸。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RAGFlow · 第 4 章:第五节 Agentic-RAG 实验:它不是更会回答,而是更会决定怎么回答
本文探讨了Agentic-RAG在企业AI应用中的核心价值与实践方法。通过结合Self-RAG和Adaptive-RAG技术,构建了一个具备智能决策能力的RAG工作流,能够动态处理问题分类、证据评估、查询改写、追问澄清和高风险控制等关键场景。实验设计了15道涵盖5类典型问题的测试集,重点验证系统在复杂业务环境下的判断力与可靠性。研究表明,Agentic-RAG的核心优势不在于更"聪明"的回答,而在于更精准的决策机制——包括问题分流、证据评估、风险管控等能力,同时保持系统的可调试性和合规性原创 2026-05-08 23:24:47 · 574 阅读 · 0 评论 -
RAGFlow · 第 4 章:第四节 Adaptive-RAG:先判断问题该走哪条路
本文介绍了Adaptive-RAG在企业级应用中的策略路由机制。主要内容包括: 策略路由的意义:不同于传统RAG的统一处理流程,Adaptive-RAG能根据问题类型选择不同处理路径,特别适用于企业复杂文档场景。 技术框架:通过"问题分析+策略选择+分支执行"的流程,将问题分类为知识库检索、高风险流程、追问补充等不同处理分支。 实验设计:构建火电厂设备运维和安全隔离知识库,验证系统能正确识别不同类型问题并选择相应处理策略。 实现方案:详细展示了基于Query Classifier的问原创 2026-05-07 00:11:54 · 518 阅读 · 0 评论 -
RAGFlow · 第 4 章:第三节 Self-RAG:补充说明和进一步思考Agentic RAG的组成
本文探讨了Self-RAG工作流中意图识别与Query改写的内在联系。研究发现,Self-RAG通过证据评估分支(Evidence Grader)和改写再检索分支(Query Rewriter)已内置这两种能力,无需独立组件。证据评估分支实现了意图识别的分流判断功能(回答/改写/不足),而改写分支则执行检索优化。相比企业级RAG的多路由系统,Self-RAG专注于单一知识库场景下的自我修正能力验证,采用"检索-判断-改写"的闭环流程更符合其设计理念。研究指出,额外添加独立组件会干扰核心实原创 2026-05-06 00:57:48 · 559 阅读 · 0 评论 -
RAGFlow · 第 4 章:第二节 Self-RAG:让系统先判断证据是否足够
这篇文章介绍了一个在企业AI应用中实现Self-RAG(检索增强生成)工作流的实验。实验目标是验证当第一次检索结果不足时,系统能否正确判断不足原因并进入二次检索分支。文章详细阐述了知识库配置、工作流设计原则和具体实现方法,强调Self-RAG的核心价值在于证据不足时的智能处理能力,而非简单的多次检索。实验结果表明,在高质量知识库中基础检索可能已足够,Self-RAG主要解决证据缺失时的精准补检或泛化重检问题。文章提供了完整的工作流文件和测试方法,方便读者复现实验。原创 2026-05-05 15:58:00 · 762 阅读 · 0 评论 -
RAGFlow · 第 4 章:第一节 Agentic RAG 的目标、局限和适用场景
摘要(149字): Agentic RAG通过动态流程编排解决企业RAG的核心痛点——普通RAG无法区分问题类型,导致高风险场景误答或证据不足时硬答。其核心价值在于:1)证据不足时主动拒答或追问;2)对复杂问题分解检索与综合;3)高风险问题强制进入安全流程。适用场景集中于模糊查询、多跳推理及合规问答,但对简单FAQ类问题可能过度设计。实际效果需结合评测集验证,平衡控制能力与系统复杂度。企业需根据问题风险等级选择普通RAG或Agentic方案。原创 2026-04-27 23:53:09 · 517 阅读 · 0 评论 -
RAGFlow · 第 3 章:第六节 MinuerBridge安装配置与运行使用
RAGFlow 是一款开源 RAG 引擎,核心能力是把文档解析、切片、检索、重排和大模型问答串成完整链路。MinerU 是 OpenDataLab 团队开发的高精度文档解析引擎,擅长把 PDF、图片、DOCX 等非结构化文档转换为 Markdown、JSON 等机器可读格式。MinerUBridge 的目的很明确:在 RAGFlow 中引入 MinerU,但不把 MinerU 直接塞进 RAGFlow 主环境。原创 2026-04-27 14:27:31 · 556 阅读 · 0 评论 -
RAGFlow · 第 3 章:第五节 实验Vector/Keyword Weight (混合搜索权重)
本文通过实验测试了RAGFlow中向量权重(Vector Weight)与关键词权重(Keyword Weight)的不同配置对检索效果的影响。使用火电厂业务文档作为测试数据,设置了四组不同权重参数(纯关键词组、纯向量组、两组混合权重)进行对比。实验发现:纯关键词组擅长精确匹配编码但语义理解不足;纯向量组语义关联能力强但容易过度解读;两组混合权重表现均衡,0.3向量+0.7关键词组合在保持精确匹配的同时提升了语义理解能力,0.7向量+0.3关键词组合则更擅长业务归纳。结果表明需要根据具体场景需求选择合适的权原创 2026-04-26 23:42:51 · 360 阅读 · 0 评论 -
RAGFlow · 第 3 章:第四节 实验Similarity Threshold (相似度阈值)
文章摘要: 本文探讨了RAGFlow中Similarity Threshold(相似度阈值)参数的作用与调优策略。通过火电厂知识库的对比实验,测试了0.05、0.30和0.70三种阈值设置的表现。结果显示:0.05阈值召回全面但混杂无关内容;0.30阈值平衡了召回率和准确率;0.70阈值则过于严格导致漏检。建议根据知识库特点采用渐进式调参:从0.20-0.30开始,结合业务需求调整,专业知识库可尝试0.40-0.50,避免盲目使用极端值。阈值选择需考虑embedding模型、文本分块方式等多重因素,最终目标原创 2026-04-26 23:21:59 · 386 阅读 · 0 评论 -
RAGFlow · 第 3 章:第三节 实验Chunk Token Num & Overlap (切片与重叠)
本文探讨了RAGFlow中Chunk Token Num和Overlap参数对文档处理的影响。实验表明:1) 小Chunk(50)能保留精确细节但易丢失上下文关联,适合精确信息检索;2) 大Chunk(1024)可保持语义连贯性但可能引入噪音,适合多跳推理场景;3) 10-20%的Overlap能有效修复指代断层问题。针对不同文档类型(表格、技术文档、协议文本),需灵活调整参数组合:表格内容需确保完整解析,技术文档适合大Chunk保持逻辑链,协议文本则需要中小Chunk配合Overlap来平衡细节与连贯性。原创 2026-04-26 22:52:02 · 326 阅读 · 0 评论 -
RAGFlow · 第 3 章:第二节 实验Chunk Method (解析方法与布局识别)
本文是《RAGFlow企业AI工程师指南》系列的第2章第2节,聚焦Chunk Method(解析方法与布局识别)的实验研究。通过对比Naive、Paper、General(配合deepdoc/MinerU)三种解析策略在企业复杂文档处理中的表现,实验发现:Naive解析导致表格碎片化;Paper解析存在跨页表格截断问题;General+MinerU组合能正确处理复杂表格(包括合并单元格和多页表格),同时保持文字段落完整性。实验证实ChunkSize参数不影响已有语义边界的内容解析。建议企业文档处理采用Gen原创 2026-04-26 22:27:38 · 519 阅读 · 1 评论 -
RAGFlow · 第 3 章:第一节 RAGFlow 配置参数全景图与实验结论
列举RAGFlow配置参数和优先级; 前置了通过实验获得的关键参数的综合配置原创 2026-04-26 21:43:17 · 528 阅读 · 0 评论 -
RAGFlow · 第 2 章:第一节 从目录、启动链路到核心工作流
本文仅介绍 RAGFlow 的基本框架、代码目录、启动链路与核心工作流程,旨在后续实验开始前,对该系统的整体架构与处理流程形成概括性认识。原创 2026-04-26 20:28:52 · 457 阅读 · 0 评论 -
RAGFlow · 第 1 章:安装部署与基础配置——从零跑通第一个 RAG Pipeline
本文是RAGFlow系列教程的第一章,主要介绍如何从零开始部署RAGFlow v0.24.0并构建基础RAG流程。文章首先解析了RAGFlow的四层运行时架构:前端交互层、后端核心层、基础设施层(包含MySQL、MinIO等Docker服务)和离线模型层。随后详细说明了系统启动后的数据流转过程,包括文档上传、解析、索引建立以及问答检索的全流程。文章还提供了完整的安装部署指南,涵盖Docker环境配置、服务启动和基础功能验证,并附有常见问题解决方案。通过本章,读者可以全面了解RAGFlow的运行机制,并完成第原创 2026-04-24 12:35:02 · 424 阅读 · 0 评论 -
RAGFlow · 第 0 章:企业 AI 工程师需要掌握 RAGFlow
RAGFlow 是当前最值得深入掌握的开源 RAG 引擎。这不是因为它完美,而是因为它在企业知识管理这个场景上,覆盖了从文档解析到 Agentic RAG 再到生产部署的完整链路。这篇文章作为前言将回答两个问题:为什么(WHY)和做什么(WHAT)。原创 2026-04-14 22:19:45 · 649 阅读 · 0 评论
分享