GraphRAG的采用评估

最新推荐文章于 2025-03-09 21:14:20 发布

Ai玩家hly

最新推荐文章于 2025-03-09 21:14:20 发布

阅读量1k

点赞数 25

文章标签： GraphRag 知识图谱 rag 关系抽取命名实体识别

本文链接：https://blog.csdn.net/qq_45003504/article/details/142613170

版权

论证报告

主题：GraphRAG的采用评估

摘要：
本报告旨在评估GraphRAG技术的适用性及其潜在优势，并基于这些优势提出是否应该采用该技术的建议。我们将详细探讨GraphRAG的技术特性，并通过实际案例分析来证明其有效性。最终，我们将给出是否采用GraphRAG的结论，并概述如果决定采用的话，需要采取的具体步骤。

一、GraphRAG简介
1.利用大型语言模型（LLMs）从文档中提取知识图谱是GraphRAG的核心功能。这一框架通过自动识别文档中的关键实体，并将它们组织成不同粒度级别的社区，从而构建出一个结构化的知识网络。GraphRAG能够深入理解文档内容，识别出文档中的实体、关系以及属性，然后将这些信息抽象成节点和边，形成一个由实体构成的网络。在这个网络中，每个节点代表一个实体，而边则表示实体之间的关系。

2.在执行检索增强生成（RAG）操作时，GraphRAG会遍历这些社区，生成多个“社区答案”。具体来说，当用户提出一个问题时，GraphRAG会利用其内部的图结构来定位与问题相关的社区。接着，它会在这些社区内搜索最相关的答案候选。这些初步的答案通常包含多个可能的答案片段，它们来自不同的文档或社区内的不同节点。

3.随后，GraphRAG会对这些初步答案进行筛选和整合，最终输出结构清晰、内容精准的答案。这一过程不仅提高了答案的相关性，还增强了结果的可解释性。通过这种方式，GraphRAG不仅能提供准确的答案，还能展示答案背后的逻辑，帮助用户更好地理解答案的来源及其可靠性。

检索原理：

二GraphRAG的优势

方便抽取命名实体和关系：
○ GraphRAG在其底层支持调用开源的大规模语言模型进行命名实体识别（NER）和关系抽取（RE）。这意味着后期新增的数据可以通过与大模型结合使用提示词模板（prompt templates）的方式进行提取，无需重新训练命名实体识别和关系抽取的大模型，简化了数据处理流程。
更好的可扩展性：
○ GraphRAG设计为一个灵活且可扩展的框架，能够轻松对接Neo4j、LanceDB等图数据库系统。这种灵活性使得GraphRAG能够在不同场景下应用自如，适应不断变化的需求。
具备复杂问题的推理能力：
○ 相较于传统的RAG知识库，GraphRAG不仅能够识别文本中的关系，还能够基于这些关系进行推理，从而对复杂问题给出更为深入的回答。而传统的RAG系统往往仅限于相似性检索，缺乏深层次的理解与推理能力。
处理数据量更大：
○ 随着数据量的增长，传统RAG模型的检索效果会逐渐下降，因为重复性数据和相关性数据的增加会导致检索精度降低。相比之下，GraphRAG可以从大量关联数据中提炼出丰富的实体和关系，例如从小说或剧本中分析出前后的人物关系及事件发展，使它在处理大规模数据集时依然能够保持良好的性能。

GraphRAG的不足

对外接口需要业务方自己实现：
○ GraphRAG并未提供现成的接口来实现文件输入、模型识别等功能，这意味着业务方需要自行开发相应的接口以供外部系统调用。
数据存储功能需二次开发：
○ 默认情况下，GraphRAG提取的数据会被保存在指定路径下，若希望将这些数据存储至数据库中，则需要业务方自行编写代码实现数据格式转换和导入逻辑，增加了开发成本。此外，数据的可视化依赖于第三方工具的支持。
GraphRag是初代产品：
○ GraphRAG作为微软开发的第一代产品，其内部集成的工具尚不足以应对某些复杂的业务场景，例如深度搜索和广度搜索等功能仍需业务方进一步开发才能实现。
新数据添加需要重新使用模型识别：
○ 当需要添加新的机器数据时，必须先通过模型识别出其中的实体及其关系，并人工校对后存入正确位置。若要实现自动化处理，则需将新旧数据融合后再进行整体提取，不支持增量更新。
局域网环境下调用模型接口困难：
○ 在局域网环境中使用GraphRAG时，可能存在访问模型接口的障碍，因为通常不允许从局域网内直接访问外部模型服务。因此，需要考虑将必要的IP地址加入白名单，并采取措施防止访问被拦截。

四、GraphRAG优势的实证分析
为了证明GraphRAG的优势，与RAG做了对比实验。
1：用具有很强的上下文关联性文本（小说）来验证GraphRag和rag的能力不同：
传统rag问问题得到的答案：描述简单，细节少。

GraphRag问同样问题得到答案：人物以及人物关系与个人重大事件回答更丰富。

2：使用YJ118供料成条机使用说明书来验证：

传统rag在问问题得到答案：

问题一：监控贮料区的烟丝料位用什么传感器

参考文档内容：

问题二：监控流化床的上限位置什么传感器

参考文档内容：

问题三：烟枪底座上的定位快是干什么用的

问题四：循环风机三角皮带松弛量是多少

参考文档内容：

问题五：报错2222

上述问题在GraphRag中的回答如下：
问题一：监控贮料区的烟丝料位用什么传感器

模型首次回答：回答错误，内容不相干，与真实答案差距大。

经过提示词优化和调参后得到的答案：回答错误，但比首次得到结果与真实答案更接近。

对文本数据增强以后得到结果：回答正确，同时可以解释其他类似功能的产品作用

问题二：监控流化床的上限位置什么传感器
模型首次回答：可以得到正确答案。

经过提示词优化和调参后得到的答案：得到真实答案的同时也会给出相关的功能类似的元件也会给出解释。

对文本数据增强以后得到结果：回答正确，同时类似组件也会给出解释，回答问题具备多样性。

问题三：烟枪底座上的定位快是干什么用的
模型首次回答：可以得到正确答案。

经过提示词优化和调参后得到的答案：得到真实答案的同时也会给出相关的元件的使用过程做出解释。

已经回答正确故无需再次增强数据。

问题四：循环风机三角皮带松弛量是多少
模型首次回答：回答错误。

经过提示词优化和调参后得到的答案：得到真实答案的同时也会给出相关的元件的使用过程做出解释。

已经回答正确故无需再次增强数据。

问题五：报错2222
模型首次回答：回答错误，无法检索到正确答案。

经过提示词优化和调参后得到的答案：得到真实答案，但对具体故障处理方式描述不够准确。

对文本数据增强以后得到结果：回答正确，同时给出了正确的解决方案，回答问题方式也更专业一些。

文本数据增强策略：手工组装问题与答案，并对容易产生误解地方进行更多内容解释。

五、结论及建议
GraphRag可以满足问答需要，但个人不建议采用GraphRag。原因在于其开发工作量大，单独一个人难以完成目标，需要进行大量的数据筛选与校对工作，并且相关的集成服务都需要企业自行开发并修改部分源码，同时进行测试验证，开发与优化过程中大量调用模型接口会产生较多费用，局域网使用大模型也要考虑通信成本（响应延迟，卡顿）和推理成本（问与答都会消耗token付费），查询与检索都需要二次开发。

直接使用传统的RAG（Retrieval-Augmented Generation）可以避免这些问题。使用传统RAG的优势在于开发速度快，成本低廉。在项目的前期阶段，可以利用RAG快速实现问答功能，通过数据筛选等方式处理现有数据，以供用户查询，有新机器数据产生可以增量更新到向量数据库。此外，还可以在用户使用过程中收集问答数据，为将来技术的升级做好数据准备。

六、实施计划
如果决定采用GraphRAG技术，我们将需要综合考虑以下各个方面，以确保顺利实施：

后端技术准备：
○ 需要开发一系列接口，包括但不限于文件上传、数据处理、数据存储以及数据查询功能。
○ 这些功能需要作为一个独立的模块或项目来集成GraphRAG，以保证系统的灵活性和可维护性。
○ 需要修改GraphRag底层源码，使得适配通过路由的方式执行业务流程。
○ 文本数据需要统一转为GraohRag支持的格式（csv或者text），需要对数据再次筛选匹配，修正描述不具体的信息，对检测不到的数据需要人工处理进行数据增强。
网络和通信：
○ 定义适用于局域网环境下的通信协议，以规范数据传输和发送的格式，确保数据的一致性和完整性。
前端技术准备：
○ 开发用户交互界面，包括但不限于数据处理按钮、数据查询按钮以及支持深度和广度搜索的功能，以提供直观易用的操作体验。
数据准备：
○ 将现有的文档统一转换成纯文本格式，并对问题及故障维修信息进行预处理，去除无关数据（如特殊符号、表格和语义不清的信息），保留有价值的答案部分。
环境验证以及部署：
○ 对GraphRAG运行所需的环境与开发后端接口应用包的兼容性进行验证，确保没有冲突。
○ 在局域网环境中部署GraphRAG时，需解决如何调用大模型接口的问题，保证模型的可用性和响应速度。
持续优化：
○ 新增机器数据的添加流程较为复杂，需先识别出相关联的数据，并手动核对后存储至正确位置。如果希望通过自动化手段处理，则需将新数据与已有数据融合后重新提取关系，GraphRag目前不支持增量更新。

七、研究费用统计
总费用需等待第二天十一点之后更新账单数据，目前产生费用6.73元。
调用大模型推理会收费本次调研使用模型为通义大模型—qwen1.5-110b-chat