军哥fastgpt教程-6-fastgpt源码解读之知识库构建

最新推荐文章于 2025-03-20 23:12:37 发布

五彩石说编程

最新推荐文章于 2025-03-20 23:12:37 发布

阅读量1.7k

点赞数 24

文章标签： gpt

本文链接：https://blog.csdn.net/2401_83148236/article/details/142288736

版权

大家好，这里是五彩石编程，我是军哥。上一篇文章中我们讲过了fastgpt源码的目录结构，这一篇文章，我们继续深入源码，开始对知识库相关的源码进行解读，一起来学习吧！

一、概述

对于一个完整的知识库来说，其功能主要分为以下3个方面：

知识库的管理
知识库的构建，也即文档等知识的输入
知识库的检索

管理功能包含知识库本身的增删改查、知识库中内容的增删改查、知识库中层级结构的管理等基本功能，这部分的源码，都在 projects/app/src/pages/api/core/dataset/ 目录及其子目录下，基本上都是常规的数据库操作，每个模块的功能都比较单一，这里就不多说了。剩下的重点就是知识库的构建和检索了，这两部分我们一个一个来深入了解一下。

二、知识库的构建

1、整体流程

我们从最典型的本地文件上传入手，在 projects/app/src/pages/api/core/dataset/collection/create/localFile.ts文件中，我们可以看到本地文件上传的处理流程，

readRawTextByLocalFile()，从本地文件中提取文本内容
uploadFile()，把文件写入到mongodb的gridfs中
removeFilesByPaths()，删除临时文件
splitText2Chunks()，把文本内容进行分段（分块）
checkDatasetLimit()，检查是否受限
createOneCollection()/createTrainingUsage()，在mongodb中创建collection，并创建文本训练账单
pushDataListToTrainingQueue()，把分段后的文本，放入训练队列中
更新图片的过期时间

这一步只是完成了把本地文件内容保存进数据库，然后进行文本拆分，并生成了文本训练的任务，生成任务后，还需要完成训练，把文本进行向量化，并保存到向量数据库中，才算构建流程的真正完成，而训练的过程，又分为了两步：

生成qa对
把qa向量化，保存进向量数据库中

生成qa对对应的代码在：projects/app/src/service/events/generateQA.ts中，
qa对向量化的代码在：projects/app/src/service/events/generateVector.ts中。

上面是整个的流程，下面把里面比较重要的方法拿出来详细说明一下。

2、从本地文件中提取文本内容

这部分的源码都在 packages/service/common/file/read/utils.ts文件中的readRawTextByLocalFile()方法中，从这个方法中，我们可以看到根据不同的文件类型，使用了不同的方法，提取出了其中包含的文本内容，这部分的代码，比之前版本的的代码做了比较大的改变，没有之前版本的实现更直观一些，但代码看起来更简洁了些，让主逻辑更突出了，这点确实不错。

3、文本分段（分块）

文本分段的代码都在：packages/global/common/string/textSplitter.ts文件中的splitText2Chunks()方法内，该方法里面调用了commonSplit()，commonSplit()中是核心的分段方法，主要是使用一堆的正则表达式，按步进行拆分，用户自定义的分类方法会放到这一堆正则的最前面，优先使用，这里面有一个递归拆分的方法：splitTextRecursively()，会对超出指定长度的文本块进行递归的拆分，以满足长度的要求。

4、分段后的文本放入训练队列

这部分的代码在：packages/service/core/dataset/training/controller.ts中的pushDataListToTrainingQueue()中，这部分的代码比较多，但核心逻辑就一行，就是把格式化后的任务保存进数据库中，训练队列保存任务就是基于数据库来实现的，所以要保存进数据库中。进了数据库，就相当于进了队列，然后就可以被训练文本的任务来执行了

5、训练任务的启动

我们在很多地方都能看到调用connectToDatabase()方法，该方法对应的源码在：packages/service/common/mongo/init.ts中，它会返回一个mongodb连接，并且在调用后的钩子方法里面，会调用：startTrainingQueue(true)，而这个方法，就是启动生成qa对和对qa对进行向量化并保存进数据库的入口。