一、丰富能处理的数据集种类
二、细节
再输入向量化和知识库向量化环节需要用到embedding模型,需要占用显存,再写函数的时候要把模型载入和向量化分开写,防止重复载入占用大量内存- 知识库向量化速度比较慢,可以用如多进程和多线程来加速数据集的向量化
- 多进程和多线程的时候也需要注意模型重复载入的问题
模型向量化需要耗费计算资源,可以选择将向量化后的结果记录下来,下次直接载入,节省资源
三、
四、知识库是汇总为一个文件好还是分开多个文件?
我选择了折中处理,汇集成一个文件可能存在问题:
- 文件过大:如果数据量非常大,单个文件可能会变得过于庞大,导致读取和处理速度变慢。
- 内存消耗高:一次性加载大文件可能会占用大量内存,尤其在内存有限的系统上。
在程序中逐个文件遍历可能存在问题:
- 代码复杂度:处理多个文件的代码逻辑较为复杂,需要更多的错误处理和异常捕获。
- 读取速度慢:逐个读取文件可能会增加 I/O 操作时间,影响总体速度。
但由于目前做的是商业化项目,未来终归是要处理大量数据的,所以整合是必要的;未来还需要运用多线程的技术去同时对比多个向量化后的文件,如果有多个文件的话多线程逻辑更简单;另外目前不知道数据的具体体量和个数。
暂定路线:根据文件属性相似度进行合并,设置单文件大小阈值,达到阈值后不再合并。