RAG | 优化思路

Grred

已于 2024-06-27 11:28:44 修改

阅读量1k

点赞数 17

文章标签：人工智能

于 2024-06-21 14:56:05 首次发布

本文链接：https://blog.csdn.net/Grred/article/details/139181850

版权

一、丰富能处理的数据集种类

二、细节

~~再输入向量化和知识库向量化环节需要用到embedding模型，需要占用显存，再写函数的时候要把模型载入和向量化分开写，防止重复载入占用大量内存~~
知识库向量化速度比较慢，可以用如多进程和多线程来加速数据集的向量化
多进程和多线程的时候也需要注意模型重复载入的问题
~~模型向量化需要耗费计算资源，可以选择将向量化后的结果记录下来，下次直接载入，节省资源~~

三、

四、知识库是汇总为一个文件好还是分开多个文件？

我选择了折中处理，汇集成一个文件可能存在问题：

文件过大：如果数据量非常大，单个文件可能会变得过于庞大，导致读取和处理速度变慢。
内存消耗高：一次性加载大文件可能会占用大量内存，尤其在内存有限的系统上。

在程序中逐个文件遍历可能存在问题：

代码复杂度：处理多个文件的代码逻辑较为复杂，需要更多的错误处理和异常捕获。
读取速度慢：逐个读取文件可能会增加 I/O 操作时间，影响总体速度。

但由于目前做的是商业化项目，未来终归是要处理大量数据的，所以整合是必要的；未来还需要运用多线程的技术去同时对比多个向量化后的文件，如果有多个文件的话多线程逻辑更简单；另外目前不知道数据的具体体量和个数。
暂定路线：根据文件属性相似度进行合并，设置单文件大小阈值，达到阈值后不再合并。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Grred

关注关注

17
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【RAG优化】你的RAG效果为什么不好？如何改进？

同学小张的博客

08-20

536

AI大模型应用开发，常常是做出Demo容易，但在实际生产中落地很难。尤其是RAG框架下的应用。你的RAG效果为什么不好？怎么改进？一起来看一下。

【AI大模型应用开发】【RAG优化 / 前沿】0. 综述：盘点当前传统RAG流程中存在的问题及优化方法、研究前沿

同学小张的博客

03-07

4285

10个痛点问题，20+优化方法，8个前沿RAG研究。本文我们从RAG的流水线开始，全面梳理了当前传统RAG存在的问题，同时针对每个问题，总结了优化方法。并且，整理了当前前沿的RAG研究。

参与评论您还未登录，请先登录后发表或查看评论

如何优化本地部署的 RAGFlow（提高准确率 & 响应速度）

u011296842的专栏

03-10

2785

的重要性，可以结合 BM25 / TF-IDF。如果检索 & LLM 生成速度慢，可以使用。本地部署的 RAGFlow 可能会遇到。如果 LLM 响应慢，可以使用。默认的向量检索可能会忽略。

小学生也能听得懂的大模型 - Transformer 1

2401_85325557的博客

07-29

1263

参考 [小学生也能听得懂的大模型 Transformer 1]

RAGflow知识图谱解析很慢，很费token，很占用硬盘

xuukai的博客

03-07

3214

磁盘I/O瓶颈：若系统盘空间不足，可能导致解析进程卡住。比如，当系统盘空间使用率过高时，Elasticsearch等服务可能无法正常工作，影响索引构建和解析进度。文档格式与内容问题：若上传的文档格式复杂或包含特殊字符，可能导致解析缓慢。知识图谱配置问题：使用了复杂或不适用的命名实体类型配置，增加了实体抽取的难度和时间。内存不足：RAGFlow在解析文档构建知识图谱时，需要处理大量数据，若内存不足，会导致处理速度变慢甚至卡住。RAGflow一旦开启知识图谱之后，解析非常慢，会发现文档都长时间卡在80-90%

Rag中如何优化大模型响应延迟

sinat_28694519的博客

01-05

1390

在rag流程中，经常会遇到大模型输出慢的问题，比较影响用户体验。在大模型应用中，如何优化大模型输出性能，减少延迟呢，一般有如下准则。以上是几种优化rag流程大模型输出延迟的方案，这些方案的使用成本不同，可以针对具体情况进行使用。参考。

RAGFlow本地部署解析进度一直不动解决方法

Simgo的博客

02-14

8277

解决RAGFlow本地部署后，解析文档进度一直不动的解决方法

【Ragflow】9.问答为什么比搜索响应慢？从源码角度深入分析

最新发布

兴趣使然的创作者

04-02

1134

前几天看到有群友提到一个现象：Ragflow的搜索界面的问答速度很快，但聊天界面的问答速度很慢，究竟是什么原因？在深入挖掘源码之后，逐渐发现了问题的答案。

22-检索增强生成(RAG) 优化策略篇.pdf

12-31

RAG Fusion和模块化RAG优化策略则针对提升模型的性能和灵活性。RAG结合SFT（即Supervised Fine-Tuning）和查询转换等技术，进一步增强了模型的性能。索引优化策略涉及到如何优化RAG模型的索引过程，包括嵌入优化...

LLMs之RAG：深度剖析基于大语言模型的RAG系统中优化技巧总结—“用户查询”阶段优化策略经验—Query重写、Query分解、Query增强技术思路分析与代码实验结果对比之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

07-12

4657

LLMs之RAG：深度剖析基于大语言模型的RAG系统中优化技巧总结—“用户查询”阶段优化策略经验—Query重写、Query分解、Query增强技术思路分析与代码实验结果对比之详细攻略目录相关参考内容深度剖析基于大语言模型的RAG系统中优化技巧总结—“用户查询”阶段优化策略经验—Query重写、Query分解、Query增强技术思路分析与代码实验结果对比之详细攻略 # 1、定义嵌入模型和LLM # 2、加载数据并预处理：加载网页、文本分割、索引构建 # 3、R

RAG 优化：高效解析并接入图文、表格密集型文档

kakaZhui的博客

03-31

263

检索增强生成 (Retrieval-Augmented Generation, RAG) 已成为构建智能问答、文档摘要、内容创作等应用的利器。然而，标准的 RAG 流程往往假设输入是纯文本。当我们面对现实世界中更常见的文档——那些充斥着大量图片、图表和表格的报告、手册、论文或网页时，传统的 RAG 方法就会显得力不从心。这些非文本元素往往蕴含着关键信息，忽略它们将导致 RAG 系统理解片面、回答不准确。你想问一个产品手册中某个零件的安装步骤，而关键信息在一张流程图里。

探索检索增强生成（RAG）技术的无限可能：Vector+KG RAG、Self-RAG、多向量检索器多模态RAG集成

丨汀、的博客

01-09

4416

探索检索增强生成（RAG）技术的无限可能：Vector+KG RAG、Self-RAG、多向量检索器多模态RAG集成

RAGFlow使用测评

abments的博客

05-23

4104

RAGflow的灵活度大于QAnything，比较时刻开发与调试。但是在本地安装依赖过程中出现报错。** 关于这个问题在github上也有人遇到了同样的问题但作者没有给出具体的解决方案，切换到wsl环境就可以解决这个问题 **。

DeepSeek部署及ragflow知识库问题汇总

qq_40358970的博客

02-10

8008

普通的AI大模型：基于训练好的数据回答，知识库+AI：基于知识库和训练数据回答，网络Tools+知识库+AI：再加上网络数据回答，涉及到agent等知识，后续如果需求的朋友多会考虑出一期。A:仍然是镜像源的问题，设置镜像源后建议重启docker，截至视频发布，视频内镜像源仍可访问，如果还是不行，可以增加镜像源，配置如下。，如果不太熟悉git，一键安装包中已经下载好了，ragflow文件夹中就是，跳过下载，按照步骤操作即可。4.启动模型：也可以启动快捷图标ollama 即可在CMD模式下使用交互窗口交互。

救救孩子吧：RagFlow解析文档一直卡在83%不动，令人头大

weixin_43008312的博客

12-19

5154

我上传了一个5页的pdf格式论文，解析一直停留在83%ragflow-slim容器的部分配置信息。我的docker内容器。

RAG 修炼手册｜揭秘 RAG 时代的新向量数据库

ZILLIZ

05-07

2893

RAG 场景中对向量数据库的召回效果有着严格的要求，不仅需要高精度和快速响应的召回这类基础能力，还需要处理多模态数据的能力以及可解释性和可调试性这类更高级的功能，以确保生成模型能够基于高质量的召回结果产生准确和相关的输出。其次在检索效率方面，由于信息可以表示成高维向量，针对向量加上特殊的索引优化和量化方法，可以极大提升检索效率并压缩存储成本，随着数据量的增长，向量数据库能够水平扩展，保持查询的响应时间，这对于需要处理海量数据的 RAG 系统至关重要，因此向量数据库更擅长处理超大规模的非结构化数据。

【大模型】RAG效果优化：高质量文档解析详解

2401_85375186的博客

09-09

1857

基于PDFPlumber将pdf中的文字部分提取出来，得到words集合，并基于words位置关系检测文本行（lines）。

ollama RAG

02-18

### Ollama RAG技术文档和实现细节 #### 关键概念和技术背景 RAG（Retrieval-Augmented Generation）是一种增强型生成方法，通过引入外部知识库来提升大型语言模型的能力[^2]。这种机制允许模型在处理特定领域问题时能够访问最新的、结构化的数据资源。 #### 架构概述针对基于Ollama框架构建的RAG系统，整体架构可以划分为离线处理流程与在线服务两大部分： - 数据读取：从各种源获取原始资料。 - 文档拆分：将收集到的信息按照一定规则分割成更小单元以便管理和索引。 - 向量化：利用编码器转换文本片段为数值向量表示形式。 - 数据存储：保存经过预处理后的特征向量至高效检索数据库中。 - **在线部分** 用户发起请求后触发一系列操作： - 数据检索（召回）：依据输入查询匹配最相似的历史记录或知识点。 - Prompt拼装：组合上下文信息形成完整的提示语句供下游组件解析。 - LLM生成：调用大模型完成最终响应内容创作过程[^3]。 #### 实现要点为了使上述设计思路付诸实践并达到预期效果，在具体实施过程中需关注以下几个方面： - **优化文档切分策略**：合理规划文件划分标准直接影响后期搜索效率及质量[^1]。 - 提升查询召回性能：确保能快速定位关联度最高的参考资料集合。 - 整合多模态信息源：除了纯文字材料之外还可以考虑图像、音频等多种媒体类型的融合应用。 - 加强安全防护措施：防止敏感信息泄露的同时保障整个系统的稳定运行。 ```python import ollama_rag_library as olr def process_document(document_path): """Process a single document through the pipeline.""" doc = olr.read_data(document_path) chunks = olr.split_into_chunks(doc, method='optimized') vectors = olr.encode_texts(chunks) return olr.store_vectors(vectors) def retrieve_and_respond(query_string): """Retrieve relevant documents and generate response using an LLM.""" results = olr.search_index(query_string)[:5] context = " ".join([result['text'] for result in results]) prompt = f"Given this context:\n{context}\nAnswer the following question: {query_string}" answer = llm.generate(prompt=prompt).strip() return {"answer": answer} ```