RAG | 优化思路

一、丰富能处理的数据集种类


二、细节

  1. 再输入向量化和知识库向量化环节需要用到embedding模型,需要占用显存,再写函数的时候要把模型载入和向量化分开写,防止重复载入占用大量内存
  2. 知识库向量化速度比较慢,可以用如多进程和多线程来加速数据集的向量化
  3. 多进程和多线程的时候也需要注意模型重复载入的问题
  4. 模型向量化需要耗费计算资源,可以选择将向量化后的结果记录下来,下次直接载入,节省资源

三、


四、知识库是汇总为一个文件好还是分开多个文件?

我选择了折中处理,汇集成一个文件可能存在问题:

  1. 文件过大:如果数据量非常大,单个文件可能会变得过于庞大,导致读取和处理速度变慢。
  2. 内存消耗高:一次性加载大文件可能会占用大量内存,尤其在内存有限的系统上。

在程序中逐个文件遍历可能存在问题:

  1. 代码复杂度:处理多个文件的代码逻辑较为复杂,需要更多的错误处理和异常捕获。
  2. 读取速度慢:逐个读取文件可能会增加 I/O 操作时间,影响总体速度。

但由于目前做的是商业化项目,未来终归是要处理大量数据的,所以整合是必要的;未来还需要运用多线程的技术去同时对比多个向量化后的文件,如果有多个文件的话多线程逻辑更简单;另外目前不知道数据的具体体量和个数。
暂定路线:根据文件属性相似度进行合并,设置单文件大小阈值,达到阈值后不再合并。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值