从零开始学 Dify- RAG 知识库系统设计详解

原创于 2025-06-04 11:49:32 发布

· 624 阅读

8 ·

版权

文章标签：

#docker #语言模型 #人工智能 #AI #大模型 #dify

RAG（检索增强生成）知识系统是 Dify 的核心组件，它使 AI 应用程序能够检索和利用外部知识。该系统管理从文档提取到知识检索的整个流程，支持不同的索引技术、文档处理方法和检索策略。

架构概述

RAG 知识系统遵循三阶段提取-转换-加载 (ETL) 流程进行文档处理，并结合复杂的检索机制进行知识访问。

RAG 系统架构图

RAG（检索增强生成）知识系统使应用程序能够通过以下方式利用基于文档的知识：

文档提取 ：处理各种文档格式
分块和嵌入 ：将文本转换为矢量表示
知识检索 ：查找与用户查询相关的信息

数据集管理

数据集结构

数据集是 RAG 知识体系的基本组织单元。每个数据集包含文档，文档被划分为多个段，以便于索引和检索。

数据集创建

为了创建数据集，系统接受包括名称、描述、索引技术和检索配置在内的参数。

POST /datasets

数据集创建工作流程：

验证参数
创建数据集记录
如果使用高质量索引，请配置嵌入模型
设置检索配置
设置权限

索引技术

该系统支持两种主要索引技术：

技术	描述	向量数据库	Embedding 模型	用例
`high_quality`	使用嵌入模型将文本转换为向量	必需	必需	更好的语义理解，处理细微的查询
`economy`	使用基于关键字的倒排索引	不需要	不需要	更低的资源占用，精准的关键字匹配

文档形式

文档可以以三种不同的形式进行处理和索引：

形式	描述	索引方法
`text_model`	直接嵌入的默认文本文档	直接嵌入文档内容
`qa_model`	问答对	生成问答对并嵌入问题
`hierarchical_model` （父子模型）	带有子段的父块	创建具有父块和子块的层次结构

文档处理 Pipeline

文档处理管道遵循提取-转换-加载（ETL）模式：

提取阶段

提取阶段处理不同的数据源：

上传文件 ：处理上传的文件，如 PDF、DOCX 等。
Notion 导入 ：从 Notion 页面提取内容
网站抓取 ：从抓取的网站中提取内容

提取过程将不同的内容源规范化为统一的文本文档格式。

转换阶段

转换阶段处理：

文本清理 ：根据配置的规则删除多余的空格、URL、电子邮件
分割（Segmentation） ：根据配置的规则将文档分成块
格式化 ：根据文档形式（文本、问答、分层）准备索引文本

关键分割参数：

分隔符（Separator） ：用于分割文本的字符序列（默认值： \n\n ）
最大令牌数（Max Tokens） ：每个段的最大令牌数（默认值：1024）
块重叠（Chunk Overlap） ：段之间的标记重叠（默认值：50）

加载阶段

将片段保存到数据库
为所有文档创建关键字索引
为了实现高质量索引，生成嵌入并将其存储在向量数据库中

该过程包括：

为段创建数据库记录
使用配置的嵌入模型生成文本嵌入
建立搜索索引（关键字和/或向量）

检索系统

检索系统负责根据用户查询从索引数据集中查找相关信息。

检索方法

系统支持多种检索方式：

方法	描述	要求	优势
语义搜索（Semantic Search）	使用向量相似性来查找语义相关的内容	嵌入模型，向量数据库	最适合基于含义的查询
关键词搜索（Keyword Search）	使用精确关键字匹配	关键词索引	适合精确的术语搜索
全文搜索（Full-Text Search）	使用全文索引技术	全文索引	平衡精度和召回率
混合搜索（Hybrid Search）	结合多种方法	所有索引	最佳整体表现

检索策略

系统支持两种主要的检索策略：

单一检索（Single Retrieval） ：使用带有 AI 模型的单一数据集来路由查询
多重检索（Multiple Retrieval） ：使用可配置的权重和评分在多个数据集中进行搜索

结果处理

格式化为文档上下文
可能使用重新排序模型进行重新排序
根据相关性阈值进行评分和过滤
按相关性排序
准备返回调用应用程序

与工作流集成

RAG 知识系统通过知识检索节点与 Dify 的工作流系统集成：

知识检索节点：

从工作流中获取查询输入
配置检索参数
调用数据集检索系统
将格式化的知识返回到工作流

API 集成

服务 API

RAG 知识系统公开了 RESTful API 以与客户端应用程序集成：

接口	Method	描述
`/datasets`	POST	创建新数据集
`/datasets`	GET	列出可用数据集
`/datasets/{dataset_id}`	GET	获取数据集详细信息
`/datasets/{dataset_id}`	POST	更新数据集设置
`/datasets/{dataset_id}`	DELETE	删除数据集
`/datasets/{dataset_id}/document/create-by-text`	POST	从文本创建文档
`/datasets/{dataset_id}/document/create-by-file`	POST	从文件创建文档
`/datasets/{dataset_id}/documents/{document_id}/update-by-text`	POST	通过文本更新文档

控制台 API

对于内部控制台使用，存在其他端点：

接口	Method	描述
`/console/datasets`	多种方式	控制台的数据集管理
`/console/datasets/{dataset_id}/documents`	多种方式	文档管理
`/console/datasets/{dataset_id}/documents/{document_id}/segments`	多种方式	段管理

速率限制和配额

该系统实施速率限制和配额执行，特别是在云部署中：

知识检索速率限制

对知识检索操作强制实施速率限制

# Simplified rate limiting logic
knowledge_rate_limit = FeatureService.get_knowledge_rate_limit(tenant_id)
if knowledge_rate_limit.enabled:
    current_time = int(time.time() * 1000)
    key = f"rate_limit_{tenant_id}"
    redis_client.zadd(key, {current_time: current_time})
    redis_client.zremrangebyscore(key, 0, current_time - 60000)
    request_count = redis_client.zcard(key)
    if request_count > knowledge_rate_limit.limit:
        # Add rate limit record and return error

资源限制

对各种资源实施限制：

资源	描述	执行点
向量空间	限制嵌入存储	在文档创建/索引期间
Documents	限制文档数量	文档上传期间
知识率	限制检索频率	在知识检索过程中

总结

RAG 知识系统是 Dify 中用于知识索引和检索的综合解决方案。它提供了灵活的文档处理、索引技术和检索策略选项，使其能够适应各种用例。该系统的模块化架构允许与工作流和对话系统等其他组件无缝集成。

如何学习AI大模型？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。
在这里插入图片描述

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型实战项目&项目源码👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战项目来学习。（全套教程文末领取哈）
在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）
在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程文末领取哈）
在这里插入图片描述

为什么分享这些资料?

只要你是真心想学AI大模型，我这份资料就可以无偿分享给你学习，我国在这方面的相关人才比较紧缺，大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述