知识图谱增强 RAG:各种 SOTA 方法对比,阿里 KAG VS 微软 GraphRAG VS 牛津 MedGraphRAG VS 港大 LightRAG,以及未来优化方向
论文对比分析报告
一、概述
美国 Glean 公司用的 GraphRAG 技术,在最新一轮融资超过 2.6 亿美元。
说明,这个技术非常强大、而且潜力巨大。
详细解读(包含开源代码、算法解读、怎么部署、踩坑心得):
-
LightRAG 知识图谱+大模型 新SOTA:超越 GraphRAG,效率提升99.98% + 准确率提升8-13% + 多样性提升 20-61% + 更新成本降低 80%,以及部署指南
-
KAG LLM + 图谱的五方面增强:知识表示增强、图结构与文本互索引、符号引导的拆解和推理、知识对齐、模型,支付宝支小宝、蚂蚁集团应用算法,医疗问答指标解释准确率 > 93%
KAG 我还没有使用过,因为这个得 docker 搞,我在 autodl 上没有 docker。
其他 3 个都部署了,记录在上文的详细解读。
各方法梳理,以及未来科研方向
- 传统 RAG:相似性查询,解决大模型不能查询内部知识库
-
多文档构图:在向量索引基础上,引入图谱索引
解决相似性无法表示的结构化关系(从只有相似关系到数据之间的各种类型的关联)
解决只能子集查询到整体全貌查询
解决返回大量相似但重复的片段(冗余)
支持结构化、非结构化数据都可处理和查询
KG 可以捕捉大量结构化关系与全局关联,尤其在医疗问诊、专业咨询等需要多跳或多要素关联的场景中具有天然优势。
KG 也可以减少冗余信息、保留全局信息,提升系统的可解释性。
-
GraphRAG:在多文档构图基础上,解决 KG 被简化为单纯的数据源,难以集成 KG 的复杂查询
不仅查找相似的文本块、精确表示实体间关系和进行推理,了解层次结构,并捕获平面文本遗漏的复杂关系
设计社区聚类,总结图的社区结构,分别分析每个"社区",多跳推理提升
引入 GNN 理解图形式的数据,多跳推理提升
-
KAG:在 GraphRAG 基础上,解决 LLM 不会专业领域的符号逻辑计算(如俩个医疗集合的交集算不对),增强可信程度、查询灵活度
引入逻辑符号决策和检索(复杂问题拆解、多重限定条件、排除性条件、统计聚合查询)
文本转查询语句的模型优化(实现图谱更多高级查询功能)、
语义对齐(提升文档构图的准确性),语义关联查询提升
-
未来优化:从 卷图 精准表示实体 到 卷图算法 优化信息流动
文档间的逻辑关联(已部分解决):
- 易获取: 文档间的语义相似度(实体间的关联)
- 难获取:文档间的逻辑关联(无法完全捕获复杂的因果关系,时序关系可能被忽略,隐含逻辑难以提取)
问题所需的推理路径(已较好解决):- 易获取:文本中的实体及其关系
- 难获取:问题所需的推理路径(推理路径可能不完整,难以处理需要常识推理的问题,无法保证最优路径选择)
全局最优检索路径(难以完全解决):- 易获取:局部文档关系
- 难获取:全局最优检索路径(NP难问题,无法保证全局最优,实时性要求与搜索空间的矛盾)
要想最大化发挥 KG 的潜力,需要从“KG 的四大阶段”去进行细化决策,而非仅仅依赖某个低代码框架把文本片段强行塞进 LLM 索引。
- 图数据库选型策略
- 索引策略
- 检索查询
- 图增强生成
再补充一些 知识图谱 RAG 算法:
-
GEAR: 基于图增强代理的多跳检索增强生成系统,将多次独立检索压缩为一次图结构检索 - 在MuSiQue数据集上实现超10%性能提升的新型检索框架
-
OG-RAG 基于本体引导的超图检索增强生成:通过知识结构化,提升大模型在专业领域的准确性和可解释性,实现55%准确率提升和30%效率提升
-
KG-RAG 知识图谱+大模型:医疗问题输入 → 实体识别&链接 → 问题子图 → 子图文本化 → 相似度计算 → LLM问答
-
KG-Retriever:KG-Retriever使用分层索引图技术(包含知识图谱层和文档协作层)来解决RAG中的跨文档推理问题(文档间的逻辑关联、问题所需的推理路径、全局最优检索路径)
-
KG-LLM:知识图谱 + 大模型 + 思维链 CoT 、指令微调 IFT 和上下文学习 ICL,解决图神经网络随着跳数增加会导致性能下降
-
KG-Rank:用知识图谱和多级排序(相似度排名、答案扩展排名、MMR排名、重排)增强大模型,解决医疗问答准确性、多样性
-
HyKGE = 预检索阶段生成假设性输出 + 知识图谱深入探索 + 信息片段重排序,解决了查询不完整性、准确度和深度不足、展示不佳问题,提升了答案的准确性、相关性和体验
-
Plan-on-Graph:通过任务分解和路径探索,将问题逐步缩小至答案,结合反思纠错与动态探索,确保推理方向的灵活性与鲁棒性
-
KARPA:复杂多跳知识图谱+大模型问答的全局规划框架,避免陷入局部最优,实现91.2%的准确率,降低50%以上交互成本,支持4跳复杂推理路径
二、技术方案对比分析
开源医疗知识图谱:
- CMeKG(临床医学知识图谱)
- CPubMed-KG(大规模中文开源医药知识图谱)
- Disease-KG(中国疾病知识图谱)是开源的医疗知识图谱,整合了大量医疗文本数据,覆盖疾病、药物、症状及诊疗等多方面。
- 联合知识图谱包含实体1,288,721个,关系3,569,427条。
2.1 召回方式选型(找相关资料的过程):决定检索策略和结果质量
召回方式选型,就是"怎么找到需要的信息",就像你在图书馆找书,可以:
- 直接问图书管理员(Text2GQL方式,将用户的问题转换为GQL(图查询语言)的任务)
- 在某个书架区域找(SubGraph RAG方式,子图)
- 按照线索一步步找(Chain of Exploration方式,探索链通常由特定的算法支持,如图遍历算法、路径搜索算法(如深度优先搜索、广度优先搜索)或更复杂的图分析技术(如最短路径、社区检测))
这三种方法各有特色,可以单独使用,也可以组合使用来增强知识图谱的检索和推理能力。
Text2GQL/GNN专注于查询转换,子图RAG关注知识范围的优化,而探索链则着重于知识发现的过程。
论文名称 | Text2GQL/GNN | 子图RAG | 探索链 | 特色 |
---|---|---|---|---|
KAG | - 使用logical form将自然语言解析为结构化查询 - 支持Schema约束的规范化抽取 - 实现Text2GQL的精确语义解析 点评: 在检索环节采用语义导向的创新设计 | - KGcs(质量高专家的"标准字典")和KGfr(大量文档自动生成的"覆盖广的词典")两个层次构建子图 - 通过supporting_chunks等桥接两个图谱 - 实现不同层级知识的互联互通 点评: 创新性地构建了互补的双层子图结构 | 将复杂问题分解为多步骤子查询 - 每步可触发检索/推理等不同操作 - 支持多跳路径的复杂推理 点评: 灵活的多步骤探索设计增强了系统推理能力 | 知识完备性问题: - 两层子图互索引架构平衡质量和覆盖 查询精确性问题: - Text2GQL语义解析提供精准理解 知识质量问题: - 子图质量优化降低噪声提升准确度 复杂推理问题: - 多跳路径探索增强多步推理能力 专业规范问题: - Schema约束确保专业知识准确性 |
GraphRAG | - 使用LLM根据域特定提示抽取实体和关系 - 支持多轮gleaning迭代提升抽取质量 - 生成描述性文本作为图节点内容 点评: 采用LLM构建语义丰富的知识图谱 | - 基于Leiden算法进行层次化社区探测 - 为不同层次社区生成摘要 - 支持从根层到叶层的灵活检索 点评: 创新性地利用图的模块性进行分层检索 | - 用实体知识图谱来建立和表示不同实体之间的连接关系 - 多跳实现社区摘要隐式地包含了实体间的多跳关系,不是传统的实体-关系-实体的显式路径遍历 | 全局性问题: - 层次化社区结构支持全局视角 并行性问题: - 社区级别的并行检索提升效率 扩展性问题: - 模块化结构让系统更易扩展 知识组织问题: - 层次化组织便于多粒度访问 效率问题: - Map-reduce方式实现高效检索 |
MedGraphRAG | × | - 采用Triple Graph Construction构建三层子图 - 连接用户RAG数据、医学文献和专业词典 - 生成[RAG data, source, definition]三元组 点评: 创新性地构建三层互联的专业医学知识图谱 | - 实现U-Retrieval自顶向下精确检索 - 使用标签层次聚类逐层检索 - 在层级标签间迭代优化答案 点评: U型检索策略巧妙平衡全局理解和检索效率 | 证据溯源问题: - 三层图谱架构保证答案可追溯 检索效率问题: - 层次化标签索引优化检索性能 专业性问题: - 融合专业医学知识和词典定义 扩展性问题: - 支持实时更新和多源知识整合 实用性问题: - 在多个医学问答基准上验证有效性 |
LightRAG | x | - 集成低层和高层检索机制 - 将文档转换为实体-关系图结构进行索引 - 检索相关实体的一跳邻居节点丰富上下文 点评: 双层检索设计提升了检索的相关性和全面性 | × | 检索效率问题: - 通过图结构和向量表示优化检索速度 全局信息问题: - 使用图结构捕获复杂依赖关系 适应性问题: - 支持图结构的增量更新 检索质量问题: - 通过双层检索提升相关性和全面性 |
MindMap | × | - 构建path-based和neighbor-based两类证据子图 - 通过LLM进行子图聚合形成推理图 - 实现子图质量优化和噪声过滤 点评: 创新性地结合不同类型子图并通过LLM进行聚合 | - 实现基于路径的证据发现 - 结合邻域信息扩展知识范围 - 通过mind map展示完整的探索推理链路 点评: 灵活结合路径探索和邻域扩展增强推理能力 | 知识整合问题: - 多类型子图的互补整合 推理透明性问题: - Mind Map可视化推理过程 知识融合问题: - LLM隐含知识与外部知识结合 证据链路问题: - 多维度证据支持推理过程 推理可解释性问题: - 图形化展示推理路径 |
KI-DDI | - 使用GNN编码症状和疾病关系 - 通过图注意力网络(GAT)融合医疗知识 - 实现结构化的知识表示和推理 点评: 创新地将医疗知识通过图结构注入模型 | - 构建症状-症状-疾病(S-S-D)知识图谱 - 使用sf-idf方法计算边权重 - 动态提取Top-K相关子图 - 每个症状节点最多关联1-3个疾病节点 - 采用GAT网络编码子图结构 - 注意力机制融合子图与对话信息 点评: 通过子图结构实现高效的知识检索和利用 | - 注意力机制融合: 1. 自报告症状注意力 2. 医生问诊症状注意力 - 从患者自述开始探索症状 - 通过医生问诊发现更多症状 - 支持基于症状组合的疾病诊断 点评: 多级探索设计提升了诊断准确性 | 知识融合问题: - 双通道架构结合对话和知识图谱 知识表示问题: - 使用图结构编码医疗领域知识 诊断精确性问题: - 多级探索提升症状采集完整性 知识利用问题: - 通过GAT实现知识的动态融合 专业规范问题: - 基于医疗知识图谱保证专业性 |
medIKAL | × | - 实体-类型权重的候选疾病定位 - 基于路径的疾病重排序 - 子图重构提供诊断上下文 点评: 创新性地结合实体权重和路径重排序提升准确度 | - 残差网络式的LLM-KG融合 - 模板引导的多步推理 - 基于路径的相关性评分 点评: 创新地将残差思想应用于知识融合 | 诊断精确性问题: - 实体类型权重优化查询精度 知识整合问题: - 残差网络式架构平衡内外部知识 推理能力问题: - 模板引导的结构化推理 诊断可解释性: - 基于路径的相关性评分增强透明度 知识利用效率: - 多层次的知识检索与融合机制 |
GraphReader | × | - 构建平均每节点10个邻居、2个原子事实的规模化子图 - 采用原子事实层、文本块层、邻居层的三层架构 - 支持从粗粒度到细粒度的高效知识检索 点评: 创新性地设计三层递进式的子图结构实现高效检索 | - 基于问题自主探索图结构 - 使用预定义函数读取节点内容和邻居 - 采用粗到细的探索策略 - 持续记录和优化探索过程 点评: 创新性地将长文本结构化为可探索的图结构,并通过智能代理进行自主探索 | 长文本建模问题: - 将长文本结构化为图形式 - 通过节点表示关键元素和原子事实 - 有效捕获长距离依赖关系 知识组织问题: - 节点存储关键信息和原子事实 - 边表示节点间关系 - 图结构支持多跳关系 探索效率问题: - 采用粗到细的探索策略 - 持续优化探索过程 - 智能记录和利用探索发现 |
GEAR | x | - 基于问题动态构建知识子图 - 通过SyncGE组件实现图扩展 - 支持子图间的知识融合与对齐 点评: 创新性地实现了基于问题的子图动态构建和扩展 | - 使用diverse triple beam search进行多跳探索 - 支持基于gist memory的多轮累积探索 - 实现探索链的动态规划与调整 点评: 灵活的探索链机制提升了多跳推理能力 | 检索效率问题: - 通过图扩展增强传统检索器 知识融合问题: - 实现文档与知识三元组的同步对齐 探索质量问题: - 多样化beam search确保探索广度 推理深度问题: - gist memory支持知识累积和深度推理 自适应问题: - agent可动态调整探索策略 |
OG-RAG | × | - 构建基于hypergraph的事实表示 - 每个hyperedge封装ontology指导的事实集群 - 优化算法检索最小hyperedge集构建精确上下文 点评: 通过超图创新性地实现了高质量的子图构建和检索 | × | 领域适配问题: - 利用ontology实现专业知识精确映射 知识结构问题: - hypergraph保持实体间复杂关系 检索质量问题: - 优化算法确保最小且完备的上下文 规范性问题: - ontology约束保证领域知识准确性 高效性问题: - hyperedge封装提升检索和使用效率 |
HybgRAG | x | - 设计hybrid retrieval module实现联合检索 - 构建ego-graph进行子图检索 - 通过VSS ranker优化子图相关文档排序 点评: 创新性地实现了文本和关系知识的统一检索 | - 设计多轮迭代的self-reflection机制 - 通过critic module提供反馈优化检索 - 实现可解释的探索过程 点评: 迭代优化的探索设计提升了检索效果 | 统一检索问题: - 双模态检索架构处理异构数据 检索优化问题: - 迭代自反馈机制提升检索质量 可解释性问题: - 结构化反馈设计增强透明度 灵活性问题: - 模块化设计支持多类型查询 |
KG4Diagnosis | × | - 基于语义实体和关系的子图构建 - 利用 BioBERT 和 LLM 进行实体和关系抽取 - 通过人类专家验证优化子图质量 | - 采用分层的诊断路径探索 - GP-LLM 和专科医生 - LLM 协作完成多步诊断 - 基于置信度阈值的诊断路径规划 | - 三阶段子图构建: 1. 语义驱动的实体抽取 2. 多维度决策关系重建 3. 人类引导的知识扩展 - 分层多智能体架构: 1. GP 智能体初步诊断 2. 专科医生智能体深入诊断 - 知识图谱约束机制: 1. 实体和关系验证 2. 专家知识整合 |
KARE | × | - 基于图社区的召回 - 使用Leiden算法进行社区检测 - 生成多层次子图结构 - 社区摘要增强语义表达 - 动态图检索和增强方法实现子图检索 点评: 创新性地将社区检测与动态检索相结合,提升检索质量 | - DGRA算法迭代检索 - 多维度评分路径筛选 - 动态更新的探索策略 - 基于历史的权重调整 点评: 通过动态权重调整和迭代更新机制实现精准探索和知识发现 | 知识组织问题: - 分层社区检测实现知识结构化 检索质量问题: - 多维度评估确保检索相关性 知识整合问题: - 多源知识融合提升知识完备性 推理增强问题: - LLM推理与社区检索相结合 知识表示问题: - 多视角社区摘要提供全面理解 |
KG-LLM | × | - 通过graph preprocess提取有效子图路径 - 将子图转化为chain-of-thought提示 - 移除重复路径,保留2-6节点的有效路径 - 实现正负样本平衡的数据集构建 点评: 有效的子图优化和数据平衡策略 | - 支持从简单到五跳的复杂路径探索 - 使用深度优先搜索提取所有可能路径 - 通过实验验证不同跳数的推理性能 - 根据"六度分离理论"优化探索深度 点评: 系统的多跳路径探索和验证机制 | 知识表示问题: - 创新的图数据到自然语言转换框架 多跳推理问题: - 支持复杂的多跳路径推理 数据质量问题: - 有效的子图优化和数据平衡 模型性能问题: - 多模型对比和性能验证 扩展性问题: - 支持不同类型的知识图谱任务 |
DR.KNOWS | × | - 基于实体关联构建诊断子图 - 使用层次聚类算法分组相似症状 - 通过相似度和频率权重优化子图 点评: 采用多层次的子图构建策略,平衡了知识覆盖和精确性 | - 采用分层诊断推理路径 - 症状-疾病-诊断的三级探索链 - 基于置信度的路径优化 - 设计DR.KNOWS进行多跳路径探索 - 使用Stack GIN进行图表示学习 - 通过TriAttn/MultiAttn进行路径排序 点评: 创新性地设计了可解释的诊断路径探索机制 | 知识引入问题: - DR.KNOWS模型实现医疗知识图谱引入 路径推理问题: - 多跳路径探索提供诊断推理依据 语义理解问题: - 专业编码和规范化保证医疗语义准确 解释性问题: - 路径机制提供可理解的诊断过程 准确性问题: - 结合大模型提升诊断预测准确度 |
Graph-Based Retriever | × | - 使用知识图谱重新平衡数据检索,通过对大型文献集群进行降采样来缓解信息过载问题 - 针对生物医学实体(基因、疾病、药物)构建知识子图 - 使用实体标准化和关系抽取重构子图结构 点评: 创新性地解决了生物医学领域的长尾知识检索问题 | - 使用实体标准化和关系抽取搭建路径探索框架 - 结合时效性和影响力的打分机制,基于科学引用量和时间新近性的路径权重优化 - 实现基于Pareto前沿的路径排序和选择 点评: 通过路径探索和优化排序提升检索质量 | 长尾知识问题: - 通过图结构和降采样平衡信息检索 知识质量问题: - 使用专业模型确保实体和关系抽取质量 时效性问题: - 结合文献时效和影响力进行排序 实体标准化问题: - 采用专业框架进行实体归一化 检索效率问题: - 通过最短路径优化检索范围 |
KG-RAG | x | - 基于疾病节点抽取相关子图 - 提取上下文triples形成局部知识结构 - 通过语义相似度优化子图内容 点评: 结合向量化技术提升子图检索和优化效率 | 探索链: - MedCPT交叉编码重排序 - 多步骤交互式探索 - 语义相似度和多样性权重导向 | 检索效率问题: - 减少53.9% token使用量 - 采用minimal graph schema 检索质量问题: - 97%的稳健召回率 - PubMedBert上下文嵌入增强生物医学检索 专业性问题: - 结合SPOKE生物医学图谱 - 提供准确出处和统计证据 资源优化问题: - token优化的框架设计 - 轻量级schema设计 |
DoG | x | - 使用子图聚焦机制关注当前推理状态 - 在每个子图上尝试回答问题 - 渐进式子图构建避免过长路径的干扰 点评: 创新性地采用子图聚焦机制提高推理效率 | - 采用迭代式交互式框架 - 通过get_relations和triple_filling两个接口获取知识 - 使用多角色辩论团队引导探索 点评: 独特的多角色辩论机制增强了探索可靠性 | 长路径问题: - 子图聚焦机制减少干扰 - 每步尝试回答提高效率 假阳性问题: - 多角色辩论团队优化问题简化 - 迭代方式避免关系重复使用 推理可靠性: - 三角色辩论确保推理可靠 - 逐步简化保持语义完整 交互灵活性: - 支持多种LLM模型接入 - 实现灵活的推理框架 |
GNN-RAG | - GNN推理预测答案候选 - 基于Graph Neural Networks进行图结构检索 - 支持深层GNN增强多跳检索 - 结合两种GNN检索策略(ReaRev+LMSR)来提升检索效果 点评: 创新性地将GNN用于知识检索 | - 使用密集子图(dense subgraph)作为推理基础 - 从问题实体到答案候选的最短路径提取聚焦关键信息 - 子图结构保持完整性以支持复杂多跳推理 点评: 结合子图和路径的双重优化设计 | - 基于最短路径算法进行路径探索 - 路径验证确保推理的可靠性 - 结构化的路径探索策略 点评: 采用系统化的路径搜索增强推理可靠性 | 多跳问题: - GNN深层结构增强复杂推理能力 检索效率: - 减少LLM调用优化计算资源使用 答案质量: - 结构感知提升检索准确度 通用适配: - 支持不同规模LLM的灵活集成 资源效率: - 7B参数量模型即可达到GPT-4水平 |
Think-on-Graph | x | - 在每个搜索深度上保留top-N个候选实体和关系 - 使用LLM进行剪枝,过滤掉不相关的推理路径 - 最终形成问题相关的局部子图供推理使用 | - 通过beam search进行多跳路径探索 - 每步迭代执行关系探索和实体探索 - 动态更新Top-N推理路径 - LLM作为智能代理进行路径探索 - 在探索过程中结合LLM的推理能力 - 实现探索和推理的紧密耦合 点评: 创新性地将LLM作为智能探索代理,实现了探索与推理的深度融合 | 探索深度问题: - 支持可变深度的路径探索 - 动态调整搜索范围 探索效率问题: - Beam search保持最优路径 - 关系序列推理减少计算开销 推理能力问题: - LLM增强路径探索质量 - 探索推理交互提升准确性 |
Tree-of-Traversals | × | - 维护一个不断扩展的局部KG子图 - 通过action state machine逐步构建相关子图,循环扩展直到包含所需信息 - 使用value function评估子图状态 点评: 创新地使用状态机管理子图扩展过程 | - 使用树搜索算法探索KG - 允许回溯到更优的状态和多路径探索 - 在ASM的引导下进行结构化探索 - 使用LLM进行路径评估和选择 点评: 创新性地将树搜索应用于知识探索过程 | 子图管理效率: - ASM状态机实现规范化的子图扩展 搜索策略优化: - 树搜索支持多分支探索和回溯 推理能力增强: - 多步骤操作支持复杂推理 零样本泛化性: - 无需训练即可应用于新知识图谱 多图谱整合: - 支持多个知识图谱的协同使用 |
PBXAI | × | - 基于患者特征构建连接到KG的子图 - 在验证的医学知识子图上进行预测 - 支持动态连接新患者节点 点评: 创新地结合医学知识和患者数据构建预测子图 | - 使用RL agent引导路径探索 - 生成可解释的疾病进展路径 - 基于policy和reward进行结构化探索 - 支持在子图中进行多步推理 点评: 通过RL优化的路径探索提供了疾病预测的可解释性 | 知识-数据融合: - 结合医学知识和医疗数据 预测可解释性: - 生成直观的疾病发展路径 模型部署性: - 支持实时患者预测 预测准确性: - 通过RL优化探索策略 专业可靠性: - 基于验证的医学知识构建 |
TECHGPT-2.0 | × | - 基于医疗、法律等专业领域构建子图 - 通过KnowLM-IE数据集引入领域知识 - 在子图范围内进行实体和关系抽取 | × | - 专注于知识图谱构建 - 支持多领域知识抽取 - 结合QLoRA处理长文本 - 中文开源模型支持 - 基于Ascend服务器训练优化 |
AliCG | × | - 构建level1-4四层概念图谱 - 支持基于用户行为的概念分布动态更新 - 通过implicit和explicit用户行为优化子图质量 点评: 创新性地实现了概念图谱的分层结构和动态优化 | - 通过概率推理进行不同level之间的多跳探索 - 通过用户搜索和点击行为指导探索路径 - 使用隐式(搜索)和显式(点击)用户行为来评估概念分布 | 结构化问题: - 四层概念图谱实现细粒度到粗粒度的结构化组织 动态更新问题: - 基于用户行为的概念分布估计支持在线更新 长尾概念问题: - 通过conceptualized phrase mining和self-training挖掘长尾概念 噪声控制问题: - alignment consensus机制降低噪声提升准确度 规范化问题: - bootstrapping pattern约束确保概念抽取的规范性 |
ChatKBQA | - 使用fine-tuned LLM进行语义解析 - 基于instruction tuning优化生成质量 - 支持生成可执行的SPARQL查询 - 设计模板规范化logical form生成 点评: 创新性地采用生成优先的语义解析范式 | - 通过实体检索和关系检索两个阶段构建相关子图 - 使用相似度阈值和Top-K控制子图大小 - 在候选实体和关系的邻域中构建子图 - 采用无监督检索方法选择最相关的子图部分 点评: 创新性地采用两阶段子图构建提升检索质量 | - 使用beam search构建多条推理路径 - 设计检索-替换的迭代优化机制 - 支持多步骤的渐进式知识探索 点评: 灵活的检索-替换机制提升了推理效果 | 新范式创新: - Generate-then-Retrieve新范式提升效率 协同优化: - LLM语义解析与子图检索相互增强 架构灵活性: - Plug-and-Play支持模型替换 可解释性: - 面向知识库的可解释查询生成 效率优化: - 生成优先策略优化检索效率 |
HyKGE | × | - 不仅依赖用户query构建子图,而是通过LLM生成hypothesis output获取更多可能相关的实体作为锚点,构建局部子图 - 同时利用用户query和hypothesis中的实体构建相关子图 - 实体匹配采用dense retrieval方法进行embedding对齐,提升子图相关性 - 对子图中的实体描述信息也进行检索以丰富知识 点评: 创新性地结合假设输出指导子图构建 | - 探索3种推理链类型: 1) Path(head-to-tail)分析疾病症状因果关系 2) Co-ancestor(tail-to-tail)用于相似诊断对比 3) Co-occurrence(head-to-head)捕捉疾病演变特征 - 限制推理链长度在k跳以内优化检索效率 - Fragment重排序优化探索结果 点评: 多样化的探索模式提升知识覆盖 | 检索方向问题: - 假设输出模块提供探索指导 知识对齐问题: - 多阶段实体链接保证准确性 探索效率问题: - 三种链路模式优化知识获取 结果优化问题: - Fragment重排序提升质量 覆盖范围问题: - 多维度探索确保知识完备性 |
GNP | - 使用GNN编码器捕获图结构知识 - 采用注意力机制处理节点重要性 - 实现图到提示向量的转换 点评: 创新性地将图结构知识转化为LLM可理解的提示 | - 通过entity linking将输入文本中的实体匹配到知识图谱中的实体 - 基于匹配实体的两跳邻居构建子图 - 使用GNN编码器捕获子图的结构信息 点评: 有效平衡了知识覆盖和计算效率 | × | 创新性设计: - 跨模态池化确定相关节点 - 域投影器桥接不同表示空间 - 自监督链接预测增强关系理解 实用性考虑: - 可插拔设计支持多种LLM - 平衡知识覆盖和计算效率 性能优化: - 注意力机制提升节点重要性判断 - 两跳邻居扩展优化子图构建 |
AMAR | - 采用实体、关系、子图三个维度的多方面检索,让不同维度的信息互相补充验证 - 使用自对齐机制对齐不同维度检索结果,减少噪声干扰 - 使用siamese网络学习问题与检索内容的相关性得分,自适应地决定使用哪些检索信息 点评: 创新的多维度检索与对齐机制提升检索质量 | - 基于BM25检索包含相关实体的1跳子图 - 将子图线性化为文本进行表示 - 对每个头实体构建相关的子图文档 点评: 通过多角度检索和线性化表示提高检索的全面性和可用性 | - 使用logical form指导多跳探索 - 通过实体和关系相似度优化探索路径 - 在2跳范围内构建推理路径 点评: 结合结构化推理和相似度优化,提高推理的准确性和效率 | 检索完备性: - 实体、关系、子图三维度联合检索 噪声控制: - 自对齐和门控机制过滤无关信息 适应性强: - 软门控机制动态调整检索信息权重 信息融合: - 多维度检索信息的对齐与整合 效率优化: - 将检索信息转化为提示嵌入提升处理效率 |
Generate-then-Ground | x | × | - 对子问题分别检索 - 批量处理检索结果 - 支持多种检索器(BM25/Google/ColBERTv2) - 先用LLM内部知识生成答案 - 再通过检索文档验证和修正 - 采用批处理策略渐进式验证文档 点评: 创新性地将生成和验证解耦,提升了系统鲁棒性 | 检索依赖问题: - 通过先生成再验证减少对检索器的依赖 答案准确性问题: - 文档验证机制校正幻觉提升准确度 效率问题: - 批处理策略提高文档利用效率 泛化问题: - 指令蒸馏使小模型也能掌握验证能力 |
2.2 编排方式(怎么组织找到的信息):影响索引效率和检索结果
编排方式,就是"怎么组织找到的信息",比如:
- 重新排序:像把找到的书按重要性排序
- 分类路由:像把书分到不同的书架上
图修剪(删除无关信息)
重排序(调整信息重要性)
图增强(补充必要信息)
转述(将图转换为文本)
首先,在检索的内容是子图的情况下,由于节点/边特征以及图形结构的异构格式,其知识更有可能包含无关和噪声信息,这使得LLM难以消化,并且降低了生成质量。
因此,提出了图修剪技术来打磨检索到的子图并去除任务无关的知识。
在检索子图中,领域扩大(即跳数增加)也会导致提示上下文长度指数级增长,并稀释LLMs对任务相关知识的聚焦。
这为基于图的再排序机制提出了新的要求,以优先考虑检索到的图中最重要内容。
为了实现检索子图大小与编码的任务相关的信息量之间的更好平衡,提出了各种图修剪方法来通过删除无关节点和边以保留关键信息的同时减少子图的大小。
-
语义剪枝:语义剪枝专注于通过删除与查询无关的节点和边关系来减少图大小。
例如,QA-GNN [490] 使用LLMs编码查询上下文和节点标签,并进行线性投影以删除相关度低的无关节点;
GraphQA [388] 进一步删除与查询最不相关的节点簇;
KnowledgeNavigator [132] 根据查询对检索到的图形中的关系打分并修剪无关的关系以减小图大小。
此外,Gao等 [117] 将检索到的部分子图划分成更小的子图,并仅保留前k个较小的子图用于生成;
G-Retriever [146] 定义每个检索到的节点和边的语义得分,然后通过解决奖品收集Steiner树问题来改进图形以构建一个更加紧凑且相关的子图。
-
语法基础的修剪:从语法角度出发,删除无关节点。
例如,Su 等人[376]利用依赖分析生成上下文解析树,并根据其与解析树的距离过滤检索到的节点。
-
结构化剪枝:结构化剪枝方法专注于根据其结构性质修剪检索到的图。
例如,RoK [430] 通过计算每个路径的平均PageRank得分来过滤子图中的推理路径。
其他工作如Jiang等人[180]和He等人[143]也利用PageRank提取最相关的实体。
-
动态剪枝:与上述方法不同,动态剪枝在训练过程中会动态地删除噪声节点。
例如,JointLK [381] 使用注意力权重来递归地删除每一层中的无关节点,并仅保留固定比例的节点;
同样,在学习过程中,DHLK [429] 会根据一定的阈值动态过滤出注意力分数低于该阈值的节点。
LLMs的性能受上下文内相关信息位置的影响,无论其出现在开头、中间还是结尾 [43]。
此外,在提供上下文知识时顺序也会影响LLM的生成,较晚提供的文档贡献较少于早期的文档。
在检索过程中通常会根据相关性分数对检索到的信息进行排序,但这些分数往往基于大量候选对象的大规模排名。
仅通过细粒度水平重新排列检索到的信息是实现下游最佳性能的关键步骤之一。
例如,Li等人使用预训练的跨编码器来重新排序检索到的三元组[233];
Jiang等人和Liu等人采用预训练的重排模型来重新排序检索路径[184, 251];
Yu等人训练一个GNN来重新排序检索到的段落[Liu et al., 2021];Liao等人按发生时间对路径进行排序,并更注重近期发生的路径。
论文名称 | 编排机制 | 重排机制 | 路由策略 | 特色 |
---|---|---|---|---|
KAG | - 知识表示:LLMFriSPG框架实现数据-信息-知识分层表示 - 层次组织:KGcs、KGfr、RC三层架构 - 结构连接:图结构与文本块的mutual-indexing机制 - 存储设计:支持图数据库和向量数据库混合存储 点评:采用了知识层次化和双向关联的混合编排方式 | - 引入语义推理增强检索,使用6种语义关系增强重排 - 采用向量+结构化信息混合重排 - 针对多跳问题优化重排策略 点评:重排机制综合考虑了语义、结构和多跳特征 | - 反思机制动态调整检索策略 - 基于逻辑形式的混合推理引擎 - 支持规划、推理和检索操作符 - 实现语言和符号混合求解 - 支持多种操作符的灵活组合- 每个步骤可以使用精确匹配检索、文本检索、数值计算或语义推理等不同操作符 点评:路由策略支持复杂的混合推理过程 | - 分层知识表示:平衡专业性和便利性 - 双向增强机制:图结构和语言模型互相提升 - 逻辑驱动推理:提升专业领域问答准确性 点评:在编排、重排、路由各环节都有创新性的解决方案 |
GraphRAG | - 知识表示:将文本转换为实体知识图谱 - 层次组织:使用图社区的层级结构组织知识 - 预处理索引:为每个社区预先生成摘要 - 存储设计:分层存储实体、关系和社区信息 点评:采用了图结构+层次化的混合编排方式 | - 相关性评分:基于社区结构给予0-100分的相关性评分 - 降序排序:根据相关性分数对社区答案进行排序 - 迭代选择:根据token限制迭代添加最相关答案 点评:重排机制结合了社区结构特征和相关性评分,实现了高效的答案筛选 | - 分层路由:使用Leiden算法进行社区检测和多层次划分 - 并行分发:查询并行分发到不同社区 - 层次整合:通过map-reduce模式整合各层答案 点评:采用分层并行的路由策略,有效处理了大规模文本的全局查询 | - Graph RAG框架:创新性地将RAG与图结构结合 - 分层社区检测:支持不同粒度的文本理解 - 并行处理机制:提高了大规模文本处理效率 点评:在处理全局性查询和大规模文本方面具有独特优势 |
MedGraphRAG | - 知识图谱构建:Triple Graph Construction创建三层链接结构 - 分层组织:用户数据、医学文献、医学词典三层架构 - 实体关系表示:使用实体-关系-实体的三元组形式 - 语义索引预处理:使用预定义医学标签进行语义标注 点评:采用了专门面向医学领域的三层图结构编排,结合语义标注增强检索效果 | - 相似度评分:使用余弦相似度计算查询与实体内容的相关性,检索Top N个最相关实体,收集这些实体的k跳近邻 - 多层级重排:通过标签相似度进行动态阈值聚类 - 证据支持重排:基于医学文献和词典定义的证据支持度 点评:重排机制结合了相似度计算和医学证据支持,确保结果的可靠性 | - U型检索架构:结合自顶向下精确检索和自底向上响应精炼 - 标签引导路由:使用医学标签层次结构进行路由 - 迭代优化:通过逐层整合标签信息优化响应质量 点评:采用创新的U型路由策略,平衡了全局语境理解和精确检索 | - 三层图结构:创新性地将用户数据与权威医学资源和词典关联 - 标签驱动检索:使用预定义医学标签提高检索精确性 - 证据支持生成:确保生成结果有可靠的医学文献支持 点评:在医学专业领域实现了高可信度的知识检索和证据支持响应生成 |
LightRAG | - 知识表示:使用图结构表示文本信息,包含实体和关系 - 索引构建:基于LLM提取实体和关系,生成key-value对 - 存储优化:通过去重合并相同实体和关系,减少图操作开销 - 增量更新:支持新数据的无缝集成,无需重建整个索引 点评:采用高效的图结构编排,支持增量更新的特性很实用 | - 向量匹配:使用向量数据库匹配本地和全局关键词 - 相关性评分:结合图结构和向量表示进行深度匹配 - 上下文扩展:通过邻居节点扩展相关信息 - 混合排序:综合考虑关键词匹配度和结构关联度 点评:重排机制结合向量和图结构特征,实现高效检索 | - 双层检索:低层面向具体实体检索,高层面向主题概念检索 - 并行分发:查询同时在实体和关系层面进行 - 交叉验证:通过图结构验证检索结果的关联性 - 分层整合:将不同层次的检索结果进行统一整合 点评:双层检索策略能够同时处理具体和抽象查询需求 | - 轻量级框架:相比其他方法计算开销更小 - 双层检索机制:能同时处理具体和抽象查询 - 增量更新支持:适应动态变化的知识库 点评:在效率和适应性方面都具有明显优势 |
MindMap | - 知识表示:使用图结构表示医疗实体和关系 - 双层图检索:Path-based和Neighbor-based两种子图检索方式 - 证据整合:合并不同子图形成推理图结构 - 存储设计:分别存储实体、关系、推理路径 点评:采用了双层图结构的混合编排方式,能有效整合不同类型的医疗知识 | - 相似性重排:使用BERT相似度匹配实体 - 证据聚类:对重复路径进行聚类采样 - LLM重排:通过LLM综合评估证据相关性 点评:结合了传统相似度计算和LLM的理解能力进行多层次重排 | - 双路并行:同时检索路径证据和邻居证据 - 证据合并:通过LLM整合多条推理路径 - 思维图谱:构建推理决策树展示推理路径 点评:创新性地采用了双路并行的路由策略,并通过思维图谱可视化推理过程 | - 双层检索框架:结合路径和邻居的全面检索 - LLM增强推理:利用LLM进行知识整合和推理 - 可解释推理:通过思维图谱展示推理过程 点评:在医疗领域实现了知识图谱与LLM的有效融合,具有较强的可解释性 |
KI-DDI | - 知识表示:使用两通道架构,一个用于对话编码,一个用于症状-疾病知识图谱 - 组织方式:结合对话内容和医疗知识图谱的混合编排 - 预处理索引:使用sf-idf方法构建症状-疾病关联权重 - 存储结构:基于图注意力网络(GAT)的知识存储结构 点评:采用了对话+知识图谱的混合编排方式 | - 相关性评分:基于症状频率和疾病频率的权重计算 - 注意力机制:使用自我报告和对话编码的加权注意力机制 - 动态过滤:根据对话上下文动态筛选相关知识子图 点评:重排机制结合了统计特征和注意力机制,实现了精准的疾病诊断 | - 动态Top-K疾病关联路由: 1. 对每个症状选择最相关的K个疾病(K=1,2,3) 2. 构建症状-疾病子图 3. 通过GAT网络在子图上进行消息传递 - 双通道路由:分别处理对话信息和知识图谱信息 - 知识融合:通过GAT网络融合对话节点和症状节点 - 层次整合:通过注意力机制整合自我报告和医生问诊信息 点评:采用双通道并行的路由策略,有效融合了对话信息和医疗知识 | - 知识注入框架:创新性地将医疗知识与对话系统结合 - 动态交互机制:支持医生-患者的动态症状调查 - 分层诊断策略:结合患者自报症状和医生问诊的分层诊断 点评:在自动化医疗诊断领域实现了知识驱动的精准诊断 |
medIKAL | - 实体类型权重:根据EMR中实体类型设置权重 - 实体知识集成:通过残差网络式方法融合LLM预测和KG搜索结果 - 分层表示:将EMR信息分解为症状、病史、用药等层次化信息 点评:创新性地结合实体权重和残差网络思想的混合编排方式 | - 路径距离评分:基于实体和疾病间最短路径计算相关度 - 多维度相关性:评估症状、病史、用药、检查结果与疾病的相关性 - 定量打分:使用0-10的评分量化各维度相关性 点评:采用多维度相关性和路径距离的混合重排策略 | 多级复合路由:实体类型权重路由 + 残差网络式路由 + 知识分类组织路由 + 路径探索路由 - 基于实体类型:根据实体类型权重进行知识定位 - 递进式路由:先LLM诊断,再KG验证,最后协同推理 - 填空式交互:使用填空模板引导LLM进行决策 点评:结合实体类型和递进式验证的创新路由方案 | - 实体权重机制:针对不同类型医疗实体赋予不同权重 - 残差网络思想:创新性融合LLM内部知识和KG外部知识 - 多维度评估:全方位评估疾病诊断的合理性 点评:在医疗诊断场景下实现了LLM和KG的有效协同 |
GraphReader | - 知识构建:将长文本切分并提取为原子事实和关键元素 - 图结构组织:通过节点和边构建信息图 - 节点表示:每个节点包含关键元素和相关原子事实 - 索引设计:采用基于图的索引机制,支持多跳检索 - 存储结构:将长文本组织为可探索的图结构形式 点评:采用了基于图的编排方式,有效支持了长文本的结构化表示和检索 | - 搜索深度控制:限制最大函数调用次数为10 - 探索路径优化:基于笔记本内容动态调整搜索方向 - 节点访问去重:避免重复访问已探索的节点 - 多源信息整合:融合不同搜索路径获取的信息 点评:通过多维度的重排策略确保搜索效率和结果质量 | - 规划导向探索:基于rational plan进行节点探索 - 粗到细分层:从原子事实到具体文本块的层次探索 - 邻居节点路由:通过节点间关系进行路径选择 - 分阶段处理:atomic facts、chunks、neighbors三阶段探索 点评:采用规划驱动的多层次路由策略,实现了高效的信息获取 | - 图结构处理:创新性地将长文本转换为可探索的图结构 - 规划驱动探索:通过rational plan指导搜索过程 - 层次化处理:支持从粗粒度到细粒度的信息获取 点评:在处理长文本理解和多跳推理方面具有独特优势 |
GEAR | 文本转知识表示:使用RDF三元组格式表示文本内容 - 同步索引:将文本段落与提取的三元组保持对齐 - 图扩展设计:使用beam搜索探索多样化的三元组路径 - 记忆型存储:使用Gist Memory存储代理迭代过程中的知识 点评:采用了基于三元组的图结构编排,并创新性地引入记忆机制 | - 多步检索:迭代式检索和扩展相关段落 - 多样性重排:使用多样性权重对beam搜索结果重新排序 - RRF融合:对图扩展和初始检索结果进行融合排序 - 记忆驱动排序:基于记忆内容对检索结果进行重排 点评:结合多样性搜索和记忆驱动的重排策略,提高检索质量 | - 三元组定位:使用LLM定位初始三元组节点 - 多样性beam搜索:通过共享头尾实体探索三元组路径 - Gist记忆构造:构建并更新检索代理的记忆网络 - 终止判断:根据累积证据判断是否需要继续检索 点评:创新地将LLM与图结构探索相结合的路由方案 | - 知识同步机制:实现文本与三元组的对齐 - 多样性搜索策略:提高检索覆盖度 - 记忆增强检索:支持多轮复杂推理 - 高效迭代机制:减少LLM调用次数 点评:在复杂多跳问答和效率优化方面具有显著优势 |
OG-RAG | - 知识组织:使用本体构建超图表示领域文档 - 信息表示:通过超边封装基于本体的事实知识簇 - 结构设计:将扁平化的事实块转换为超图节点和边 - 索引方法:对本体映射后的信息进行超图建模 点评:采用本体驱动的超图结构,实现了领域知识的精确表示 | - 相关性计算:基于超节点和查询的语义相似度 - 贪婪优化:选择覆盖最多相关节点的最小超边集 - 迭代筛选:在长度限制下迭代添加最相关超边 - 事实验证:通过超边的事实约束确保响应准确性 点评:结合语义相似度和事实约束的多维度重排策略 | - 语义匹配:将查询映射到相关的超节点 - 优化选择:使用贪婪算法选择最优超边路径 - 验证整合:通过超边事实验证和整合生成响应 点评:基于超图结构的高效路由策略,保证了查询响应的准确性 | - 本体驱动:利用领域本体指导知识组织和检索 - 超图建模:通过超边更好地捕获复杂关系 - 事实约束:确保生成响应的事实准确性 点评:在特定领域知识处理和事实验证方面具有明显优势 |
HybgRAG | - 混合知识库设计:结合SKB、文本文档和知识图谱 - 关系互连:文档通过实体关系形成网状结构 - 模块化组织:采用retriever bank + critic module架构 - 多源索引:支持文本和图结构的混合索引 点评:创新性地将文本和关系知识结合,实现了灵活的混合检索架构 | - VSS排序:使用向量相似度进行文档排序 - 图结构重排:基于实体关系进行子图抽取排序 - 混合特征排序:结合文本和图谱特征 - 反馈优化:通过critic模块迭代优化排序 点评:多维度的重排策略有效提升了混合问题的检索质量 | - 智能路由:基于问题特征选择检索模块 - 混合检索:支持文本和图检索的灵活切换 - 反馈调整:根据critic反馈优化路由决策 - 自适应选择:动态匹配最优检索策略 点评:实现了高度智能的自适应路由机制 | - 混合问题处理:有效解决需要同时用到文本和关系信息的问题 - 自适应优化:通过反馈机制不断改进检索效果 - 解释性强:提供清晰的决策优化路径 点评:在混合知识检索领域具有独特优势 |
KG4Diagnosis | - 知识表示:使用医疗知识图谱存储362种疾病信息 - 层次组织:采用GP-LLM和专科LLM的两层架构 - 存储设计:实体数据库和关系数据库分别存储 - 知识扩展:通过人类专家验证和反馈不断扩充知识图谱 点评:采用了层次结构+图结构的混合编排方式 | - 置信度评分:使用概率函数计算诊断置信度(0-1分) - 阈值筛选:设置0.7的置信度阈值进行重排 - 多模型协同:整合多个专科模型的诊断结果 点评:结合置信度和专家知识的多维度重排策略 | - 初筛分发:GP-LLM进行初步诊断和分流 - 专科转诊:基于置信度和专业领域进行专科转诊 - 结果整合:通过加权方式整合多个专科意见 点评:采用医疗专科分级的层次化路由策略 | - 医疗专科分级:模拟真实医疗体系的分级诊疗模式 - 多重验证机制:通过多个专科意见和知识图谱约束防止幻觉 - 知识动态扩充:支持专家验证和知识持续更新 点评:在医疗诊断领域实现了精准的分级诊疗和知识扩充机制 |
KARE | 知识融合:整合生物医学数据库、临床文献和LLM生成的见解构建综合知识图谱 - 社区组织:通过层级图社区检测和总结组织知识图谱 - 多源结构化:分别从UMLS、PubMed、LLM三个来源构建知识子图 - 语义聚类:对实体和关系进行语义聚类,统一命名空间 点评:采用多源融合+层次化社区的混合编排方式,实现了知识的综合组织 | - 相关性评分:结合节点命中率、连贯性、时效性和主题相关性的综合评分 - 动态衰减:通过β^H(v)衰减函数降低重复节点的贡献 - 层次选择:根据社区大小和摘要长度限制,分层选择相关知识 点评:重排机制通过多维度评分和动态衰减,实现了知识的精准筛选 | - 动态路由:使用DGRA算法动态选择最相关的社区摘要 - 并行迭代:同时检索不同知识来源,迭代整合相关信息 - 分层聚合:社区检测结果从细粒度到粗粒度逐层聚合 点评:采用动态并行的路由策略,有效处理了多源异构知识的整合查询 | - 多源知识整合:实现了生物医学数据库、文献和LLM知识的有效融合 - 动态图检索:支持精确和上下文相关的信息检索 - 推理增强预测:结合LLM推理能力提高预测可解释性 点评:在医疗预测任务中实现了知识增强的精确推理和预测 |
KG-LLM | - 知识表示:将结构化知识图谱转换为自然语言 - 组织结构:使用chain-of-thought方式组织知识 - 存储设计:将节点和关系转换为文本形式存储 - 预处理索引:通过DFS预处理所有可能的路径 点评:采用了结构到文本的转换编排方式,便于LLM理解和处理 | - 基于Chain-of-Thought推理的重排 - 使用Cross-Entropy Loss评分 - 正负样本平衡的重排机制 - ICL样例增强的重排效果 - 点评:重排技术的核心在于结合CoT推理的可解释性、Cross-Entropy Loss的优化能力、正负样本平衡的提升策略,以及ICL样例的上下文增强,以实现更精准和智能的排序 | - 基于图路径的深度优先搜索(DFS)路由 - 2-6跳的限制路径探索 - 基于指令的多跳推理路由 - ICL引导的路径选择 点评:采用基于学习的路由策略,结合图搜索算法 | - 知识转换创新:将KG结构化数据转换为LLM可理解的自然语言 - 多模型支持:支持多种LLM模型的训练和预测 - 灵活性适应:通过ICL支持处理未见过的提示 点评:在知识图谱多跳链接预测方面具有独特优势 |
DR.KNOWS | - 知识表示:使用UMLS医学知识图谱作为基础知识库 - 图结构组织:基于CUI节点和语义关系边构建图结构 - 输入预处理:将医疗文本转换为CUI实体和关系 - 存储设计:维护可追溯的路径和节点相关性信息 点评:采用了基于医学专业知识图谱的图结构编排方式 | - 多维度打分:结合注意力机制和相关性评分 - 权重调整:使用TF-IDF对CUI概念进行加权 - 路径重要性排序:根据MultiAttn和TriAttn对路径进行排序 - 节点选择:选择TopN个最相关的诊断节点 点评:结合多种评分机制实现精准的诊断重排 | - 多跳推理:基于图神经网络的2跳推理机制 - 路径规划:使用图编码器进行路径生成和评估 - 诊断预测:根据路径相关性进行诊断预测 - 知识整合:结合基础模型和知识图谱的输出 点评:采用基于图的路由策略,实现了可解释的诊断推理 | - 医疗专业性:深度整合UMLS医学知识 - 可解释性:提供明确的诊断推理路径 - 灵活性:支持不同的基础模型接入 - 准确性:通过知识图谱增强提高诊断准确度 点评:在医疗诊断领域实现了知识增强的精准推理 |
Graph-Based Retriever | - 知识表示:使用KAZU和PubmedBERT提取生物医学实体与关系构建知识图谱 - 双层索引:维护文本块的嵌入索引和知识图谱索引 - 映射策略:将文本块映射到知识图谱的节点和边上 - 数据组织:基于实体类型组织知识结构 点评:采用图结构+向量的混合编排方式 | - 混合排序:结合嵌入相似度和图距离的混合重排策略 - 帕累托优化:使用文献时效性和影响力的帕累托前沿进行重排 - 平衡机制:通过图结构对信息密集区域进行降采样 - 递进排序:使用递增的排序分数逐步检索文本块 点评:通过多维度的重排策略实现信息的平衡采样 | - 最短路径:基于用户问题中识别的实体,寻找实体间最短路径 - 邻域扩展:检索目标实体的一跳邻域获取相关文本 - 实体映射:通过KAZU识别问题中的实体作为图检索起点 - 多路径整合:支持通过中间实体发现间接关联 点评:结合图结构特征的多层次路由策略 | - 长尾知识获取:有效解决生物医学领域信息过载问题 - 混合检索模型:结合向量相似度和图结构的优势 - 可控性与平衡性:支持基于时效性和影响力的信息筛选 点评:在处理专业领域长尾知识检索方面具有显著优势 |
KG-RAG | - 知识组织:使用SPOKE生物医学知识图谱作为基础结构 - 实体表示:使用向量嵌入表示疾病概念和上下文 - 索引设计:采用Chroma向量数据库存储疾病概念嵌入 - 存储架构:整合图数据库与向量数据库的混合存储方案 点评:采用了知识图谱和向量的混合编排方式 | - 相关性排序:使用余弦相似度对上下文进行排序 - 上下文筛选:基于75th百分位数的相似度阈值筛选 - 最小相似度:设置0.5的最小相似度要求 - 令牌优化:通过上下文优化减少53.9%的令牌使用 点评:重排机制结合相似度和阈值筛选,实现高效上下文选择 | - 医疗实体识别引导 - UMLS一跳关系路由 - 三重排序机制导航 - MedCPT路径优化 - 动态自适应调整 点评:采用多阶段的路由策略,实现精确的知识检索和转换 | - 知识整合:结合显式知识图谱和隐式语言模型知识 - 上下文优化:实现精确且高效的上下文检索 - 鲁棒性:对输入扰动具有较强的鲁棒性 - 成本效益:显著降低令牌使用量 点评:在知识整合和效率优化方面具有显著优势 |
DoG | - 知识组织:基于图结构的三元组知识表示 - 层次结构:使用迭代交互式框架组织推理过程 - 存储设计:采用多元角色LLM团队存储和管理知识 - 关系编排:通过子图聚焦机制组织知识关系 点评:采用了图结构+迭代式的混合编排方式,通过多角色协作增强了推理能力 | - 相关性筛选:使用LLM进行关系过滤和排序 - 基于角色重排:- 专家角色进行初步的关系和答案排序 - 评论家角色对排序结果进行修正和审查 - 语言学家角色优化简化后的问题表达 - 基于三元组的答案验证 - 迭代式多轮优化 点评:创新性地将多角色辩论机制引入重排过程,提高了推理可靠性 | - 迭代路由:通过知识图谱调用和问题简化的迭代过程 - 子图聚焦:基于每步推理的三元组进行路由决策 - 并行辩论:多角色LLM团队并行参与推理决策 - 条件分支:基于答案尝试结果决定是否继续推理 点评:采用迭代式路由策略,结合子图聚焦和多角色辩论,实现了灵活可靠的推理路径选择 | - 多角色辩论机制:通过专家、评论家、语言学家三个角色协作完成推理 - 子图聚焦机制:每步推理只关注当前相关的知识子图 - 迭代式问题简化:通过辩论将复杂问题逐步转化为简单问题 点评:创新性地将多角色辩论与知识图谱推理相结合,提高了复杂问题的解决能力和可靠性 |
GNN-RAG | - 知识表示:基于图结构的混合编排 - 数据组织:GNN密集子图推理 - 节点表征:多层GNN学习实体关系表示 - 层级处理:基于问答对的层次化框架 点评:融合了图结构和语言模型的创新编排方式 | - 候选生成:GNN生成答案候选集 - 路径抽取:基于最短路径的推理路径提取 - 语义重排:LLM进行路径重要性判断 - 答案验证:LLM验证和过滤 点评:结合图结构和语义理解的双重重排机制 | - 基于实体链接的初始路由 - 最短路径算法高效探索可能路径 - GNN多层消息传递机制发现隐含路径 - 问题-关系匹配评估路径相关性 - Dense Subgraph的路径优化 - 双模型融合:GNN和LLM能力融合 点评:创新性地融合图推理和语言模型的路由策略 | - 双模型协同:GNN处理图结构,LLM处理语言 - 多跳推理能力:擅长处理复杂的多跳问题 - 可解释性:通过推理路径提供答案解释 点评:在复杂问答和推理解释方面具有独特优势 |
Think-on-Graph | - 知识表示:将LLM推理过程与知识图谱结合,通过三元组形式表示知识 - 探索机构:采用beam search进行迭代的知识图谱探索 - 信息组织:通过实体、关系和推理路径的层次化组织 - 搜索索引:支持关系搜索和实体搜索的两阶段探索机制 点评:采用LLM与KG紧耦合的混合编排方式 | - 路径评分:使用LLM对探索路径进行0-1之间的相关性打分 - 实体评分:对路径中的实体进行贡献度评估 - 迭代筛选:基于评分结果保留Top-N个最相关路径 - 深度优化:通过最大搜索深度Dmax控制路径长度 点评:重排机制结合了LLM的推理能力和路径评估 | - 探索路由:使用关系探索和实体探索的两阶段策略 - 迭代深化:通过深度参数D控制推理的层数 - 并行处理:支持并行搜索多个推理路径 - 结果聚合:根据评分和深度限制整合最终路径 点评:采用基于LLM的自适应路由策略 | - LLM⊗KG范式:创新性地将LLM作为推理代理与KG交互 - 深度推理能力:支持多跳复杂推理 - 知识可追溯性:支持推理路径的追踪和纠错 - 灵活即插即用:支持不同LLM和KG的组合 点评:在复杂推理任务和知识追溯方面具有独特优势 |
Tree-of-Traversals | - 树状结构:使用树形结构组织查询过程 - 状态机设计:采用ASM管理查询状态 - 接口抽象:统一的KG接口支持多图谱集成 - 本地缓存:维护查询相关的局部子图 点评:采用了树状结构+状态机的混合编排方式 | - 价值评估:使用LLM对节点进行0-1打分 - 最优选择:基于节点价值选择搜索路径 - 深度优先:同值节点采用深度优先策略 - 阈值控制:使用0.8阈值保证答案质量 点评:重排机制结合了价值评估和搜索策略,实现高质量答案选择 | - 状态驱动:基于ASM状态转换进行决策 - 树搜索:使用树搜索算法选择最优路径 - 多图谱:支持多知识图谱并行查询 - 回溯处理:允许搜索失败时返回重试 点评:采用状态驱动+树搜索的混合路由策略,支持灵活查询和错误恢复 | - 零样本推理:无需训练即可使用 - 黑盒LLM支持:支持任意大语言模型 - 多KG集成:可同时查询多个知识图谱 - 高可解释性:搜索过程透明可追踪 点评:在零样本学习和多知识图谱集成方面具有创新性 |
PBXAI | - 知识表示:基于知识图谱的实体和关系组织 - 实体划分:包含疾病实体、风险因素实体和患者实体 - 关系定义:表示实体间的疾病进展路径 - 表示学习:使用RBM和自编码器学习实体和患者表示 点评:采用了混合的图结构编排,结合了知识图谱和深度学习的表示学习 | - 评分机制:使用强化学习策略对路径进行评分 - 转移概率:基于状态-动作值函数计算 - 熵正则化:添加熵正则项缓解数据不平衡 点评:基于强化学习的路径重排策略比较新颖 | - 随机游走:从患者实体出发生成疾病进展路径 - 策略控制:使用策略网络控制游走方向 - 多样性保证:通过熵正则化鼓励路径多样性 点评:采用基于强化学习的随机游走路由方案 | - 可解释性:生成直观的疾病进展路径 - 知识整合:结合医学知识和数据驱动方法 - 个性化预测:基于患者特征的定制化路径生成 点评:在医疗预测可解释性方面具有独特优势 |
TECHGPT-2.0 | - 知识表示:使用Transformer架构的大语言模型进行知识图谱构建 - 双任务组织:将知识图谱构建分为NER和RTE两个主要子任务 - 数据结构:使用指令微调数据集组织知识,包含约400万条指令 - 存储设计:采用分布式计算解决方案,使用4台8NPU的机器 点评:采用了基于大语言模型的知识表示方式,通过任务分解实现知识图谱构建 | - 数据筛选:对KnowLM-IE数据集进行噪声过滤和重新整合 - 任务优先级:基于模型性能对NER和RTE任务进行区分处理 点评:重排机制主要体现在数据层面,通过数据质量控制提升模型性能 | - 任务分发:根据输入类型自动区分是NER还是RTE任务 - 长文本处理:使用位置插值方法处理长文本,支持最大12K长度的文本处理 点评:采用任务导向的路由策略,结合长文本处理能力增强模型实用性 | - 基于LLM的知识图谱构建:创新性地将大语言模型用于知识图谱构建 - 双任务协同:通过NER和RTE任务的协同提升知识图谱质量 - 长文本处理能力:支持12K长度文本处理 点评:在知识图谱构建领域探索了大语言模型的应用新范式 |
AliCG | - 层次组织:采用四层概念分层架构(领域、类型、细粒度概念、实例) - 知识表示:使用概念图形式组织知识 - 存储设计:支持500万细粒度概念的大规模存储 - 索引构建:构建高性能概念-实例双向索引 点评:采用了层次化的概念组织方式,支持大规模细粒度概念存储和检索 | - 基于概念嵌入和自注意力的实体重排(增强实体间关联性) - 使用concept embedding和text embedding的双塔模型 - 行为评分:基于用户搜索和点击行为计算概念分布 - 动态更新:根据用户行为实时调整概念-实例关系置信度 - 特定域重排:对医疗、教育等特定领域采用特殊权重 点评:创新性地结合隐式和显式用户行为进行动态重排 | - 基于四层概念图谱的分层路由 - 使用bootstrapping和alignment consensus指导路径选择 - 概率推理:通过概率推理连接不同层级概念 - 专家规则:使用预定义规则连接一二级概念 - 概念对齐:处理同义概念和消除冗余边 点评:采用多层次混合路由策略,平衡了规则和统计方法 | - 细粒度概念获取:创新性地结合模式匹配和查询-标题对齐 - 长尾概念挖掘:结合概念化短语挖掘和自训练方法 - 概念分布动态演化:基于用户行为的实时更新机制 点评:在细粒度概念获取、长尾概念挖掘和动态演化方面具有显著创新 |
ChatKBQA | - 生成式架构:采用生成后检索的方式组织知识问答流程 - 中间表示:使用逻辑形式作为自然语言和知识图谱的中间桥梁 - 存储设计:使用语义解析树存储结构化查询 点评:创新性地采用了生成后检索的编排方式,简化了传统KBQA的复杂流程 | - 实体重排:基于相似度的实体检索和排序 - 关系重排:基于语义相似度的关系检索和排序 - 组合重排:根据实体和关系的组合概率进行最终排序 点评:采用多层次的重排策略,保证了检索结果的准确性 | - 条件转发:基于生成的逻辑形式进行条件路由 - 无监督检索:使用SimCSE、Contriever等无监督方法进行检索 - 迭代执行:采用迭代方式尝试执行查询直到找到有效结果 点评:结合了规则和无监督学习的混合路由策略 | - Generate-then-Retrieve框架:创新性地改变了传统KBQA的检索-生成范式 - Plug-and-play特性:支持灵活更换LLM和检索模型 - 无监督检索机制:降低了模型训练成本 点评:在框架设计和实用性方面都具有创新性和实用价值 |
HyKGE | - 知识组织:通过HO和NER模块识别实体,转化为知识图谱 - 层次设计:分pre-retrieval和post-retrieval两阶段 - 存储结构:采用实体-关系-实体三元组形式 - 索引方式:使用GTE编码器建立向量索引 点评:采用结构化+向量化的混合编排方式 | - 分段重排:将文本分割成更小片段精细化重排 - 相似度评分:使用Fragment Granularity-aware重排模块 - TopK筛选:选择TopK个最相关推理链 - 动态调整:根据文本片段和推理链密度动态调整 点评:创新性地提出基于片段粒度的重排方法 | - 基于三类推理链的路由: 1) Path(head-to-tail)分析因果 2) Co-ancestor(tail-to-tail)相似对比 3) Co-occurrence(head-to-head)演变特征 - k跳数限制的路径探索 - 结合实体描述信息辅助路由决策 - 支持在不同推理链模式间灵活切换 - 证据链整合:整合多条推理路径 - 交互式修正:通过LLM Reader验证优化 点评:设计了多样化的路由策略提升知识覆盖 | - LLM零样本引导:利用假设输出指导检索 - 粒度感知重排:平衡相关性和多样性 - 多路径路由:提升知识覆盖和准确性 点评:在医疗领域实现了高准确性和可解释性 |
GNP | - 知识表示:使用图神经网络(GNN)编码知识图谱中的实体和关系 - 组织方式:通过cross-modality pooling模块组织节点嵌入 - 域投影:设计domain projector桥接图和文本域 - 自监督学习:采用链接预测目标来捕获图结构信息 点评:采用了混合编排方式,结合GNN和跨模态特征 | - 相关性计算:使用自注意力层计算节点重要性 - 跨模态注意力:利用文本提示计算图中节点的重要性 - 图级表示:通过平均池化整合节点嵌入 点评:重排机制基于多层注意力机制,实现了文本引导下的图知识重组 | - 通过GNN编码器在图结构中传递和聚合信息 - 基于实体链接构建检索路径 - 通过投影器引导图信息和文本信息之间的流动 - 实体链接:将输入文本与知识图谱实体匹配 - 二跳邻域:检索匹配实体的二跳邻居节点 - 子图抽取:提取包含必要内容的子图 点评:采用基于图的多跳路由策略,确保信息完整性 | - 创新融合:将图神经网络与大语言模型结合 - 知识增强:通过知识图谱提升模型的推理能力 - 灵活适配:支持冻结和微调两种LLM使用模式 - 多领域应用:在常识推理和生物医学领域均有良好表现 点评:在大模型知识增强方面提供了新的研究方向 |
AMAR | - 知识表示:将知识图谱信息转换为实体、关系和子图的多维度表示 - 组织结构:使用prompt embeddings存储和组织检索信息 - 层次架构:实现实体层、关系层、子图层的三层信息组织 - 存储设计:采用可微分的embeddings方式存储检索知识 点评:采用了多维度知识表示和可微分存储的创新编排方式 | - 多层对齐:通过self-alignment模块对不同类型知识进行对齐 - 相关性计算:使用siamese network计算问题与检索知识的相关性 - 权重分配:通过soft gate机制为不同知识赋予权重 - 迭代优化:支持beam search进行答案优化 点评:创新地结合了多层对齐和相关性计算的重排机制 | - 多层检索:实现实体、关系、子图三个维度的并行检索 - 自适应选择:根据问题动态调整不同类型知识的重要性 - 交叉注意力:通过cross-attention实现跨类型知识的信息交互 - 逻辑推理:基于LLM进行逻辑推理生成最终答案 点评:实现了自适应的多层检索和推理路由策略 | - 多维度知识集成:有效整合实体、关系和子图信息 - 自适应权重调整:动态平衡不同类型知识的重要性 - 端到端训练:支持整个框架的联合优化 点评:在知识图谱问答中实现了高效的多维度知识处理和自适应优化 |
Generate-then-Ground | - 知识组织:将大问题分解为子问题和答案对 - 存储设计:使用双阶段存储,第一阶段存储生成答案,第二阶段存储验证结果 - 迭代结构:通过迭代的方式逐步构建和验证答案 - 混合型编排:结合了生成式和验证式的双重编排机制 点评:采用了生成和验证相结合的混合编排方式 | - 批处理验证:使用batch grounding策略对文档进行分批处理 - 相似度评分:基于文档证据对答案进行相似度评分 - 验证标准:使用instructional grounding对答案进行质量验证 - 迭代优化:根据验证结果对答案进行迭代改进 - 提前停止机制避免处理无关文档 点评:重排机制结合了批处理和验证,实现了高效的答案优化 | - 子问题分发:将复杂问题分解为子问题进行分发 - 证据检索:基于子问题进行相关文档的检索 - 答案验证:对生成的答案进行基于证据的验证 - 结果整合:将验证后的答案进行整合形成最终答案 点评:采用分阶段路由策略,有效处理了多跳问答任务 | 生成-验证框架:创新性地将生成和验证两个阶段结合 - 批处理机制:通过批处理提高文档处理效率 - 指令蒸馏:使用instructional grounding distillation提升小模型性能 - 多层次验证:支持不同粒度的答案验证 点评:在多跳问答和模型蒸馏方面具有独特优势 |
KnowledgeNavigator | - 知识表示:使用三元组(head, relation, tail)结构表示知识 - 层次组织:基于问题分析、知识检索和推理的三阶段架构 - 存储结构:采用知识图谱存储实体和关系的连接信息 点评:采用经典的知识图谱存储结构,并通过三阶段架构实现高效组织 | - 基于权重的投票:对原始问题和生成的相似问题采用不同权重(2:1)进行关系重排 - 关系频率统计:统计每个关系被选中的频率并排序 - 多样性优化:独立对每个实体的关系进行排序以增加推理路径多样性 点评:通过多角度的重排策略保证了检索结果的相关性和多样性 | - 迭代深度控制:基于问题预测的跳数控制推理深度 - 自适应路径选择:每轮迭代选择排名前M个最优关系继续推理 - 知识汇聚:将检索到的三元组整合成推理子图 点评:实现了基于问题特征的自适应路由策略 | - 问题驱动的知识检索:通过问题分析引导知识图谱的检索方向 - 基于LLM的推理增强:利用LLM进行关系选择和答案生成 - 可插拔架构设计:支持不同的知识图谱和LLM模型 点评:创新性地将LLM与知识图谱结合,实现了灵活可扩展的问答系统 |
UniOQA | - 框架设计:采用双工作流并行架构(Translator和Searcher) - 知识表示:使用Cypher查询语言(CQL)表示查询意图 - 模型组织:分为CQL生成、实体关系替换、知识检索和答案融合四个模块 - 存储结构:基于OwnThink知识图谱的三元组存储 点评:采用了双流水线并行的混合编排方式,提高了处理效率和准确性 | - 动态决策:通过F1分数动态选择Translator和Searcher的结果 - 相似度评分:使用语义相似度为实体和关系重排 - 阈值筛选:使用决策因子σ(0-1)控制结果选择 点评:重排机制结合了动态决策和相似度评分,实现了灵活的结果优化 | - 双路并行:查询同时经过Translator和Searcher两条路径 - 实体替换:通过ERR算法进行实体和关系的路由替换 - 答案融合:通过动态决策算法整合两条路径的结果 点评:采用双路并行的路由策略,有效平衡了执行效率和检索准确性 | - 统一框架设计:创新性地将执行式和检索式方法结合 - 实体关系替换:提出ERR算法提高查询准确性 - 动态决策机制:灵活选择最优答案 点评:在知识图谱问答领域实现了执行和检索的有效融合 |
Retrieve-Rewrite-Answer | - 知识表示:将知识图谱三元组转换为自然语言文本 - 存储设计:使用图数据库存储三元组关系 - 组织形式:采用问答对和知识图谱双重组织形式 点评:创新性地结合了结构化和非结构化知识表示 | - 答案敏感型重排:根据问题和答案的相关性进行重排 - 反馈优化:基于问答模型的反馈评估文本生成质量 - 打分筛选:使用 hit@1 指标评估答案正确性 点评:重排机制注重答案质量和问题相关性的双重保证 | - hop 预测:预测问题所需的跳数 - 路径预测:基于问题和历史路径预测下一跳关系 - 三元组采样:根据路径分数采样推理路径 点评:采用多步预测的路由策略,确保查询路径的准确性 | - Retrieve-Rewrite-Answer框架:引入重写模块优化知识表示 - 答案敏感型生成:生成更有针对性的文本描述 - 自动语料生成:创新性地利用问答反馈构建训练数据 点评:在知识图谱问答中实现了知识表示的优化创新 |
Logic Query of Thoughts | - 知识表示形式:使用模糊向量和知识图谱表示实体与关系 - 组织方式:通过计算图组织多步逻辑推理 - 混合架构:结合LLM和知识图谱的双路径架构 点评:采用了向量+图结构的混合编排方式,支持复杂逻辑查询的分解和组合 | - 打分策略:使用likelihood ratio对LLM输出结果进行重新评分 - 组合优化:融合KG推理和LLM结果进行互补增强 - 答案评估:引入Answer Evaluation模块进行结果筛选 点评:多层次的重排机制,通过LLM和KG互补提升准确性 | - 查询分解:将复杂逻辑查询分解为多个子查询 - 双路径并行:LLM路径和KG推理路径并行处理 - 结果融合:通过fuzzy logic组合两条路径的结果 点评:基于计算图的结构化路由,实现了复杂查询的有效处理 | - 混合推理框架:创新性地将LLM与KG结合 - 逻辑运算支持:支持投影、交集、并集、否定等复杂逻辑操作 - 互补增强机制:LLM和KG相互补充提升性能 点评:在处理复杂逻辑查询方面具有独特优势 |
KEQING | - 知识组织:使用预定义的问题模板进行问题分解和匹配 - 存储结构:采用知识图谱存储实体和关系 - 索引设计:为每个问题模板预先收集逻辑链 - 表示方式:将复杂问题分解为子问题序列 点评:采用模板驱动的层次化编排方式,结合知识图谱实现高效检索 | - 候选实体选择:基于检索到的子图进行实体筛选 - 相似度评分:使用RoBERTa计算问题模板匹配度 - 多路径排序:支持每个子问题选择top-K相关问题模板 点评:结合语义相似度和多路径排序的混合重排策略 | - 子问题分发:将复杂问题分解为多个子问题并按依赖关系串行处理 - 逻辑链选择:为每个子问题匹配预收集的逻辑链进行查询 - 答案整合:根据子问题间的依赖关系迭代生成最终答案 点评:采用基于依赖关系的串行路由,确保答案生成的逻辑性 | - 层次化问题分解:通过模板实现复杂问题的系统化分解 - 可解释性增强:每个子问题都有明确的逻辑链支持 - 灵活的扩展性:支持不同类型问题的模板定制 点评:在复杂问题分解和知识推理方面具有独特优势 |
2.3 索引阶段(分类编号,方便查找)
相当于给图书馆的书做分类编号,这样下次找起来更快:
- 图索引:就像给每本书都贴上位置标签
- 文本索引:给每本书写内容简介
- 向量索引:用电脑理解的方式记录每本书的特征
图索引有助于快速访问结构信息,文本索引简化了对文本内容的检索,向量索引使搜索快速且高效。
论文名称 | 图索引 | 向量索引 | 混合索引 | 特色 |
---|---|---|---|---|
KAG | - 建立KGcs知识层和KGfr图信息层的图结构 - 通过概念图增强语义推理 - 点评:分层图结构设计便于管理不同精度知识 | - 基于文档结构的语义分块 - 向量相似度检索 - 点评:语义分块策略考虑文档结构更有效 | - 图文互索引机制 - 结合图检索和向量检索的混合推理 - 点评:创新性融合两种索引优势 | - 提出LLMFriSPG知识表示框架 - 三层架构(KGcs/KGfr/RC)支持不同粒度知识管理 - 通过概念图实现知识对齐和推理增强 点评:创新性地将图索引与向量索引结合,并通过概念层实现了更精准的知识对齐 |
GraphRAG | - 使用LLM从文档生成实体知识图谱 - 基于实体和关系建立图结构,包含节点、边和属性 - 通过Leiden算法实现图的社区检测和分层组织 - 点评:创新地使用社区检测来组织知识结构 | × | × | - LLM构建图结构 - 支持不同层级的社区摘要(根级-叶级),形成层次化的索引结构 - 提出新的基于图的RAG方法 - 通过社区检测支持全局问题处理 - 支持层次化知识组织和访问 - 点评:通过图结构创新性地解决了全局查询问题 |
MedGraphRAG | - 构建三层图结构(RAG数据/医学文献/医学词典) - 通过语义关系连接不同层实体 - 使用UMLS语义类型系统规范实体 - 点评:分层设计有助于追溯和验证医学信息来源 | - 基于字符和主题的语义分块 - 使用余弦相似度计算实体关联 - 采用动态阈值的标签聚类 - 点评:多维度向量索引提升检索精度 | 标签索引系统:元图标签(为每个图谱生成预定义的医学领域标签)、12个层级标签、标签余弦相似度 - Triple Graph Construction三元组结构 - U-Retrieval结合自上而下和自下而上检索 - 分层标签总结与递进式检索 - 点评:创新性地将图结构与语义检索相结合,平衡全局理解和精确定位 | - Triple Graph Construction确保医学信息可追溯 - U-Retrieval平衡检索效率与准确性 - 使用UMLS规范医学术语和关系 - 点评:在医疗领域实现了可靠且高效的知识检索与验证 |
LightRAG | - LLM构建实体关系图 - Dedupe优化图结构 - 实体关系文本描述 - KV索引对生成 - 实现实体节点和关系边的图结构 - 通过去重优化图操作效率 - 点评:图索引设计简洁高效 | - 实体精确匹配向量 - 关系主题多键索引支持全局主题检索 - 局部/全局关键词向量 - 增量向量更新 - 实现低层级实体关系检索 - 高层级主题概念检索 - 基于向量数据库的关键词匹配 - 点评:双层检索策略设计合理 | - 融合图结构与向量表示 - 整合局部和全局关键词检索 - 支持知识库增量更新 - 轻量级索引结构 - 点评:混合索引实现简单且高效 | - 提出dual-level retrieval范式 - 简洁高效的graph-based indexing设计 - 支持快速增量更新的适应性机制 - 点评:在保持简单性的同时实现了高效检索和更新 |
MindMap | - 实现基于路径的探索机制连接关键实体 - 采用邻居扩展策略收集相关证据 - 构建多层子图结构支持推理 点评:双重子图结构设计有效支持知识检索 | - 使用BERT相似度进行实体匹配 - 实现问题关键词的向量编码 - 基于余弦相似度进行实体检索 点评:实体匹配策略精准且高效 | - 结合路径和邻居的双重证据收集 - 通过LLM统一处理图结构理解和推理 - 实现思维导图式推理可视化 点评:创新性地结合多种索引方式并可视化推理过程 | - 提出独特的图思维激发机制 - 实现证据和推理的双向增强 - 构建透明可解释的推理框架 点评:通过图结构创新性地增强了LLM的推理能力和透明度 |
KI-DDI | - 基于GAT的图结构索引: 1. 构建症状-症状-疾病(S-S-D)知识图谱 2. 使用GAT网络进行图结构编码 3. 支持基于节点的消息传递和注意力机制 4. 维护完整的症状-疾病关系结构 - 采用sf-idf权重计算边的重要性 点评:通过GAT和权重机制实现了高效的医疗知识建模 | - 基于SapBERT的文本向量索引: 1. 使用SapBERT编码患者-医生对话内容 2. 生成对话文本的向量表示 3. 支持症状与疾病语义相似度计算 4. 保留对话上下文信息 点评:结合医疗领域预训练模型提升了文本理解能力 | - 融合对话编码和知识图谱表示 - 通过注意力机制整合两类信息 - 实现症状-疾病的多模态推理 点评:创新性地将对话理解与医疗知识图谱结合 | - 提出KI-DDI框架整合医疗对话和知识 - 设计两阶段诊断架构(症状调查编码+知识融合) - 实现医疗知识的图结构化表示和推理 点评:在医疗诊断场景下实现了知识增强的智能对话 |
medIKAL | - 基于医学知识图谱的完整图结构,采用最短路径算法进行疾病定位和路径分析,并通过LLM将图数据重构为半结构化表示 - 为不同实体类型分配权重指导图搜索 - 基于实体类型的候选疾病定位算法 - 使用路径重排序优化搜索结果 点评:通过实体权重和路径重排提升了图检索精度 | 使用CoROM密集检索模型对EMR文本进行实体识别和匹配,通过编码计算实体-节点相似度,并将关联信息转换为结构化文本供LLM使用 - 使用NER识别实体建立映射 - 采用CoROM模型进行稠密检索 - 构建EMR语义索引支持相似度匹配 点评:向量检索策略考虑了医疗领域特性 | √ | - 独特的实体类型加权机制 - "残差网络"式的混合架构设计 - 填空式提示模板的协同推理方法 点评:在医疗诊断场景下实现了LLM与KG的有效融合 |
GraphReader | - 基于原子事实和关键元素构建图结构 - 节点间通过共现关系建立连接 - 设计代理探索和检索功能 - 点评:使用图结构创新性地解决长文本建模问题 | x | x | - 三层递进式索引结构 - 基于原子事实的语义索引 - notebook记忆式索引 - 支持动态探索的灵活索引架构 - 每层索引粒度可调 - 图结构化方法有效保留文本语义关联 - 代理系统支持智能导航和推理 - 4k窗口实现128k-256k文本处理 点评:创新性地结合图结构和代理系统处理长文本 |
GEAR | - 建立passages和triples的双重索引结构 - 使用tripleLink实现索引间对齐 - 采用图扩展的多跳检索策略 - 通过 get_neighbours 维护邻接关系 - 支持图扩展和子图检索 点评:创新性地将图结构用于增强检索效果 | - 使用SBERT模型计算向量相似度 - 实现passages和triples的向量化表示 - 基于向量相似度的三元组匹配 点评:向量检索支持高效的相似度计算 | - 同步图扩展(SyncGE)机制结合图检索和向量检索 - 使用RRF融合多源检索结果 - LLM与检索系统的协同互补 点评:有效整合了多种检索方式的优势 | - 提出同步图扩展机制增强检索能力 - 设计多样化三元组beam search策略 - 使用记忆机制存储和复用知识 - 显著减少LLM调用次数提高效率 点评:在检索增强生成中实现了创新性的图增强方案 |
OG-RAG | 基于本体的超图索引: - 将文档映射到本体定义的实体和关系 - 构建超边来封装相关事实簇 - 通过超图结构保持复杂关系,通过扁平化处理简化检索复杂度 点评:创新性地使用超图结构捕获领域知识 | 使用句子嵌入函数Z计算: - 查询-节点相似度 - 查询-值相似度 以支持基于相似度的检索 - 基于句子嵌入的检索匹配 点评:结合语义相似度提升检索准确性 | 结合超图结构和向量相似度的混合索引策略: - 使用本体约束的图结构检索 - 基于向量相似度的节点匹配 - 通过贪心算法优化集成 点评:有效平衡了结构化和语义检索 | - 本体驱动的索引构建 - 超图结构的创新设计 - 双重相似度计算机制 - 支持多域知识表示 - 高效的贪心优化策略 - 可解释的索引结构 - 扁平化处理保持信息完整性 点评:通过本体增强和超图结构创新性地提升了检索质量 |
HybgRAG | - 设计retriever bank管理多个检索模块 - 使用图检索器提取ego-graph - 通过关系路径连接实体和文档 点评:图检索结构设计全面且灵活 | - 使用双编码器架构: - 查询编码器 - 文档编码器 支持语义相似度计算 - 采用VSS进行文档空间检索和排序 - 基于嵌入空间计算问题-文档相似度 点评:向量检索策略简洁高效 | - hybrid retrieval module融合图检索和文本检索 - critic module实现反馈驱动的检索优化 - 支持多轮迭代改进检索质量 点评:创新性地实现了图文互补的混合检索框架 | - 提出retriever bank和critic module双模块架构 - 实现了文本和关系信息的协同检索 - 通过反馈机制支持检索结果的持续优化 点评:特色在于将混合检索与反馈优化相结合,显著提升了检索质量 |
KG4Diagnosis | - 三阶段图谱构建索引: 1. 语义驱动实体抽取 2. 决策关系重建 3. 专家验证扩展 - BioBERT医学实体识别 - 支持362种疾病的图谱索引 | - 基于BioBERT的文本向量表示 - LLM增强的语义向量索引 - 医学术语的专业向量映射 | - 结合图结构和向量表示的混合索引 - 专家验证的知识整合索引 - 支持动态更新的分层索引 | - 医学专业知识导向 - 分层验证机制 - 支持知识扩展 - 多模态信息融合 - 专家引导的构建流程 |
KARE | - Leiden算法构建社区图索引 - 层次化社区结构 - LLM生成社区摘要 - DGRA动态图检索 - 构建多源医疗概念知识图谱 - 引入层次图社区检测技术 - 利用UMLS、PubMed和LLM构建概念特定KG 点评:通过多源融合构建了全面的医疗知识图谱结构 | - text-embedding向量表示 - cosine similarity计算 - 使用语义嵌入进行实体和关系聚类 - 基于社区总结生成文本描述 - 向量化子图检索 点评:有效结合了图结构和语义表示 | - 社区图结构+向量表示混合检索 - 支持增量更新 - 动态图检索算法选择相关社区 - 多维度评分机制优化检索质量 - 迭代细化策略持续改进结果 点评:创新性地将图检索与语义检索相结合 | - 层次化社区结构 - 双向摘要增强 - 动态更新机制 - 医疗领域适配 - 多维度融合 - 密集医疗知识结构化方法 - 动态知识检索机制 - 结合LLM推理增强可解释性 点评:在医疗领域实现了知识增强的精确检索和推理 |
KG-LLM | - LLM构建的图结构索引 - 基于DFS的路径图索引 - 2-6节点的子图索引 - 保留节点和关系ID的映射 点评:创新性地将图结构转化为LLM友好的提示格式 | - 通过 ICL 示例增强检索能力,查询与示例之间的向量相似度,找到最相关的示例 - 将节点ID和关系ID作为特殊词嵌入 - 基于prompt-answer对训练增强检索 点评:通过向量化表示增强了模型泛化能力 | - 结合图结构转换和向量表示的混合处理方案 - 通过 CoT 和 ICL 实现知识推理和检索的统一 - 采用两阶段框架整合不同索引优势 点评:有效融合了图结构和向量表示的优势 | - 图结构创新点: 1. 将KG转换为自然语言 2. 保持图的结构完整性 3. 支持多跳推理 - 索引特点: 1. DFS控制的路径提取 2. 节点和关系ID标准化 3. 基于ICL的图结构理解 4. Chain-of-Thought推理增强 - 技术优势: 1. 简单高效的图索引 2. 支持增量更新 3. 结构化到自然语言的映射 点评:通过多种技术创新提升了KG处理效果 |
DR.KNOWS | - 基于症状-疾病关系的图结构索引 - 使用层次聚类构建症状组索引 - 疾病关联图的路径索引 - 专家知识约束的图谱索引 - 设计DR.KNOWS图模型做诊断路径选择 - 使用SGIN编码图表示 - 通过Path Encoder生成路径表示 - 利用Path Ranker评估路径重要性 点评:构建了完整的图推理框架用于医疗诊断 | - 症状描述的文本向量表示 - 疾病特征的向量嵌入 - 相似度计算的诊断向量索引 | - 症状层次图索引与向量表示融合 - 基于置信度的混合检索策略 - 专家知识引导的综合索引 | - 结合UMLS医学知识图谱和基础语言模型 - 通过可解释的路径提供诊断决策支持 - 使用双注意力机制评估路径相关性 - 设计特定任务的图模型DR.KNOWS 点评:创新性地将医学专业知识与深度学习模型结合,提供可解释的诊断支持 - 应用优势: 1. 高效的诊断定位 2. 可解释的推理过程 3. 支持动态更新 |
Graph-Based Retriever | - 构建生物医学实体知识图谱:基因、疾病、化合物 - 支持6种关系类型的图结构索引:关联、正相关、负相关、共治疗、比较和结合 - 使用KAZU框架提取和规范化生物医学实体 - 利用PubmedBERT模型从BioRED数据集提取实体关系 - 通过图距离检索相关文本块 点评:构建了专门的生物医学知识图谱索引体系 | - 基于en_core_sci_md的生物医学文本分词 - 使用OpenAI的text-embedding-ada-002模型生成1536维向量表示 - 采用UMAP进行非线性降维可视化 - 使用余弦相似度进行检索排序 点评:充分利用现代嵌入技术实现高效检索 | - 图结构到文本块的双向映射 - 结合实体标注和关系预测的混合索引 - 通过Pareto优化融合多个检索目标 - 引入考虑文献时效性和影响力的评分机制 - 通过图距离和嵌入空间聚类来平衡信息检索 点评:创新性地结合多种检索方法以获取长尾知识 | - 索引创新点: 1. 生物医学专用知识图谱 2. 实体标准化和关系预测 3. 支持长尾知识检索 - 技术特色: 1. KAZU框架集成 2. PubmedBERT关系抽取 3. 高维文本嵌入 4. Pareto多目标优化 - 应用优势: 1. 生物医学领域适配 2. 支持复杂关系表示 3. 降采样平衡机制 4. 高效混合检索 点评:针对生物医学领域特点设计的高效检索框架 |
KG-RAG | - UMLS医学图谱构建 - UmlsBERT编码 - 一跳关系结构 - 实体关系维护 - 基于SPOKE知识图谱的生物医学知识检索 - 图谱包含42百万节点和160百万边 - 通过三元组建立图谱关系 - 点评:利用大规模知识图谱保证知识准确性 | - UmlsBERT向量化 - 答案扩展检索 - MedCPT匹配 - 使用MiniLM和PubMedBert进行实体匹配 - 基于余弦相似度的上下文剪枝 - 采用向量空间进行语义搜索 - 点评:多重向量索引提升检索精度 | - 图结构和向量融合 - 多阶段排序机制 - 动态权重调整(w = wbase + δ · n) - 点评:创新性地将知识图谱与向量检索结合优化token使用 | - 医学专业化索引 - 多层次索引架构 - 高效索引策略 - 良好扩展性 - 提出token优化的KG-RAG框架 - 减少50%以上token消耗 - 提供知识溯源和统计证据支持 - 点评:在保持检索准确性的同时显著优化了计算资源利用 |
DoG | - 多轮迭代的图遍历机制 - 设计交互式推理框架DoG进行基于图的推理 - 采用子图聚焦机制在每步推理中尝试回答 - 使用多角色LLM团队进行图上辩论 - 点评:创新性地引入辩论机制增强图推理可靠性 | - 实体-关系向量编码 - 上下文学习进行匹配 - 语义相似度判断 - 多角色验证机制 - 基于语义匹配进行关系过滤和筛选 - 点评:语义匹配策略提高了检索精确性 | - 结合图结构推理和语义匹配的混合框架 - 通过辩论机制实现知识对齐和细化 - 使用子图+三元组的混合推理方式 - 点评:创新性地将图推理与语义推理结合 | - 提出DoG灵活可靠的推理框架 - 采用子图聚焦和问题简化策略 - 通过多角色辩论提升推理可靠性 点评:通过辩论机制创新性地解决了LLM在图推理中的可靠性问题 |
GNN-RAG | - 使用深层GNN(L=3)处理多跳信息 - 基于ReaRev的多阶段消息传递和信息聚合 - 最短路径算法提取和验证关键路径 - Dense Subgraph进行高效检索 - 基于pagerank算法提取子图结构 - 点评:善用GNN图结构推理优势 | - SBERT编码实体和关系的语义信息 - LMSR用于问题-关系匹配 - 向量相似度计算支持语义检索 - 概率阈值过滤机制控制检索结果数量 - 点评:多重语义匹配提高准确性 | - GNN和向量表示双重索引 - 动态融合不同来源的检索结果 - 多层级信息的智能聚合 - 自适应的检索增强机制 - 最短路径提取保证知识连贯 - 点评:创新性融合双方优势 | - 首创GNN驱动的LLM检索框架 - 实现GNN的图推理与LLM语言理解优势互补 - 在多跳复杂问题上显著提升性能 - 点评:创新性地将GNN与LLM结合,显著提升知识密集型问题推理能力 |
Think-on-Graph | - LLM作为图探索和推理的智能体 - beam search在知识图谱上进行结构化搜索 - 基于实体和关系的层次化探索 - 动态路径评估与剪枝机制 点评:创新性地将LLM融入图索引检索过程 | - 利用LLM处理自然语言问题 - 实体与关系的文本化表示 - 基于相关性的向量匹配计算 - 语义理解指导路径探索 | - LLM与知识图谱的深度融合 - 结构化搜索与语义理解的统一 - 动态知识补充与验证 - 自适应的知识融合策略 | - 提出LLM ⊗ KG紧耦合范式 - 设计迭代式图搜索和推理机制 - 实现知识溯源和纠错能力 - 支持plug-and-play无训练部署 点评:通过LLM驱动的图检索实现了更可靠和可解释的推理 |
Tree-of-Traversals | - 使用ASM管理图探索状态与转换 - 维护局部KG子图结构 - 通过树搜索算法进行图遍历 - LLM参与图结构理解和推理 - 设计Tree-of-Traversals算法实现LLM和KG零样本对接 - 点评:创新性地实现了LLM和KG的零样本对接 | - 使用YAML格式的token高效表示 - 实体和关系的文本化描述 - 通过LLM理解和处理文本表示 - 支持多KG情况下的实体链接 - 基于LLM的节点评分机制 - 支持推理路径可信度评估 - 通过backtracking实现多路径探索 - 点评:评分机制有效提升了推理质量 | - ASM提供统一的图和文本操作框架 - 结合树搜索和LLM的混合推理 - 支持多知识源的协同检索 - 动态构建和扩展知识上下文 - Tree搜索算法结合图索引和评分机制 - 支持多KG协同推理能力 - 实现零样本的知识增强 - 点评:有效融合多种索引方式提升推理效果 | - 使用ASM实现结构化索引 - 支持多种KG接口和格式 - 零样本方法无需训练 - 提供可解释的推理路径 - 高效的token表示方式 - 点评:创新性地解决了LLM与KG集成的关键挑战 |
PBXAI | - Actor-Critic RL框架管理图遍历 - 基于KG的疾病知识表示 - 维护动态路径和概率集合 - 使用mask避免重复访问节点 - 通过RBM学习实体表示 - 点评:知识图谱结构设计支持疾病预测的可解释性 | - 采用RBM(受限玻尔兹曼机)学习实体表示 - 双层autoencoder学习病人特征向量 - 基于状态向量和策略向量进行决策 - 自编码器学习患者特征向量 - one-hot编码表示关系类型 - 状态向量整合多维特征 - 点评:多样化的向量表示方法增强模型表达能力 | - 结合图结构和向量表示进行路径推理 - 通过RL框架统一管理不同类型的索引 - 动态构建患者相关子图 - 支持多步路径推理和生成 - 点评:创新性地结合专家知识和实际数据 | - 医学知识与患者数据融合 - 可解释的预测路径生成 - 灵活的多模态索引机制 - 支持个性化预测 - 高效的状态空间搜索 - 强化学习模块利用EHR数据训练 - 支持动态患者节点连接 - 点评:通过图推理实现了疾病预测的可解释性和个性化 |
TECHGPT-2.0 | - LLM方案构建图索引 - 基于命名实体识别(NER)构建节点 - 基于关系三元组抽取(RTE)构建边 - 处理嵌套NER数据,增强图结构复杂性 - 点评:采用任务导向的图构建方式提高索引质量 | - QLoRA进行向量表示优化 - 使用position interpolation处理长文本 - 维护4096维度的隐藏状态表示 - 对不同领域数据进行向量化表示 - 点评:创新性地解决了长文本处理问题 | V | - 高效的参数索引优化 - 多领域知识图谱构建 - 长文本处理能力 - 中文开源支持 - 灵活的领域适配 - 创新使用位置插值方法处理长文本 - 点评:在保持模型通用能力的同时,有效增强了知识图谱构建能力 |
AliCG | - GNN方案构建多层概念图索引 - 使用bootstrapping构建概念节点 - 通过alignment consensus构建边关系 - 动态更新图结构支持概念演化 - 点评:动态演化的图结构能更好适应搜索需求 | - 使用concept embedding进行向量化 - 采用双塔模型进行表示学习 - 结合用户行为进行向量优化 - 支持长尾概念的向量表示 - 点评:向量化表示促进了概念匹配和检索 | - 结合概念图结构和向量表示 - 通过用户行为统一更新两种索引 - 点评:用户行为驱动的混合索引更新机制很有创新性 | - 提出细粒度概念获取方法 - 长尾概念挖掘策略 - 基于用户行为的分类演化机制 点评:通过多维度创新实现了概念图谱的精确构建和动态更新 |
ChatKBQA | - 使用SPARQL实现基于图的结构化查询 - 支持logical form到图的映射 - 使用beam search优化图路径搜索 - 通过LLM生成逻辑形式框架 - 点评:创新性提出先生成后检索的范式 | - 使用多种向量化工具(SimCSE/Contriever) - BM25支持文本相似度检索 - 使用SimCSE等无监督模型进行短语级语义检索 - 基于相似度的实体和关系匹配 - 点评:采用短语级检索提高了检索精度 | - 图结构与向量相似度联合索引 - logical form引导的混合检索 - 实体-关系-路径多层次索引 - 点评:实现了生成和检索的有效融合 | - Generate-then-Retrieve框架创新 - 支持多种LLM和检索模型的插拔式架构 - 引入复杂度分析确保检索效率 点评:框架设计兼顾了效率和灵活性 |
HyKGE | - GTE编码器对实体进行图嵌入 - 使用推理链(path、chainCA、chainCO)在知识图谱中进行结构化检索 - 使用GTE embedding model实现实体-图谱对齐 - 采用W2NER模型识别医疗实体映射 点评:多样化的图结构设计支持全面知识检索 | - 使用bge-reranker-large模型进行文本向量化和相似度重排序 - 使用GTE编码器进行实体向量化 - 实现query-entity密集向量检索 - 采用bge-reranker-large模型重排序 点评:多层次的向量索引保证检索精度 | - 结合图结构和向量相似度检索 - 使用假设输出来指导检索方向,与知识图谱双重检索策略 -基于分段粒度的重排序机制来平衡检索结果的相关性和多样性 点评:创新性地融合多种索引方式提升检索效果 | - 引入假设机制(HOM)补充查询完整性 - 三类推理链增强知识检索全面性 - 细粒度Fragment重排序平衡相关性和多样性 点评:在保证检索效率的同时提升了知识可解释性 |
GNP | - 使用标准GNN编码器嵌入知识图谱 - 采用图注意力网络(GAT)处理子图结构 - 应用自监督链接预测增强实体关系理解 点评:创新地将GNN与提示学习结合 | - 使用LLM词典获取文本嵌入 - 通过跨模态注意力计算节点重要性 点评:有效实现了文本和图结构的对齐 | - 结合GNN编码和文本嵌入的双模态设计 - 通过领域投影器统一图文表示 - 采用跨模态池化融合不同模态信息 点评:巧妙融合图文两种模态优势,实现更好的知识整合 | - 跨模态表示学习 - 自监督链接预测增强 - 领域投影对齐 - 首创图神经提示方法增强LLM - plug-and-play设计便于与预训练模型集成 - 在冻结和微调两种设置下都表现出色 点评:提出了一种新颖且实用的LLM知识增强框架 |
AMAR | - 解决图数据结构化查询问题:使用S-expression和SPARQL实现规范的图查询语言转换 - 解决多跳推理问题:在2跳范围内支持关系发现和路径探索 - 解决图遍历问题:通过JOIN等操作实现规范的图数据访问 点评:多维度图检索策略提升了知识获取的完整性 | - 将检索结果转换为提示嵌入表示 - 使用交叉注意力对齐不同知识切面 - 通过相似度计算进行知识筛选 点评:嵌入表示结合注意力机制提升了知识表达效果 | - 结合图检索与向量表示进行知识增强 - 通过自对齐模块融合多维度信息 - 基于问题相关性自适应选择知识 点评:混合索引策略实现了更全面的知识获取和筛选 | - 首次提出基于多维度检索增强的知识图谱问答框架 - 创新性设计了知识自对齐和相关性门控机制 - 在WebQSP和CWQ数据集上取得SOTA性能 点评:技术创新性强,且在实际应用中效果显著 |
Generate-then-Ground | × | - 使用ColBERTv2/Google Search等retriever进行向量检索 - 使用BM25进行词匹配检索 - 通过batch grounding分批处理检索结果 - 点评:通过分批处理创新性地解决了检索文档噪声问题 | × | - generate-then-ground框架先生成后验证 - instructional grounding distillation支持小模型 - batch grounding策略提升检索效率 点评:创新性地改进了传统检索增强生成范式,提高了准确性和效率 |
KnowledgeNavigator | - 构建基于实体和关系的迭代检索路径 - 引入权重投票机制进行关系筛选 - 采用多跳推理策略探索知识子图 点评:创新性地结合权重投票提升检索质量 | - 将三元组转换为自然语言模板 - 通过问题扩展增强语义理解 点评:模板转换策略提升了LLM处理结构化数据的能力 | - 综合利用图结构检索和模板转换 - 问题分析、知识检索、推理三阶段联动 点评:通过多阶段协同实现了高效的知识增强 | - Question Analysis阶段预测推理深度 - Knowledge Retrieval阶段实现迭代式知识获取 - Reasoning阶段将结构化知识转换为LLM友好格式 点评:三阶段框架设计实现了高效的知识检索和推理增强 |
UniOQA | - 通过ERR算法进行实体和关系替换 - 使用正则表达式提取实体和关系构建图结构 - 基于图的匹配和检索机制 点评:ERR算法创新性地解决了实体对齐问题 | - 使用Elasticsearch进行实体相关三元组检索 - 基于模板将知识转换为自然语言 - 采用pattern-matching查询检索相关信息 点评:检索策略考虑了实体上下文的完整性 | - 结合Translator和Searcher双工作流机制 - 通过动态决策算法整合两种索引结果 - GRAG过程实现检索增强生成 点评:双工作流结合提供了更全面的答案生成能力 | - 创新性提出ERR算法实现知识图谱对齐 - 将RAG应用于知识图谱问答 - 动态决策算法优化答案选择 点评:通过混合索引和创新算法显著提升了问答准确性 |
Retrieve-Rewrite-Answer | - 基于hop预测的图检索机制 - 使用relation path prediction进行路径检索 - 点评:结构化检索策略设计合理 | - 将图三元组转换为自然语言表示 - 基于LLM的文本生成和重写 - 点评:文本转换提升了可理解性 | - 结合图结构检索和文本重写的双阶段处理 - 通过反馈机制优化检索质量 - 点评:创新地融合了结构化和文本化处理 | - 提出答案敏感的KG-to-Text转换方法 - 设计自动语料生成和质量评估机制 - 实现了从结构化到自然语言的高效转换 - 点评:独特的重写机制显著提升了KGQA性能 |
Logic Query of Thoughts | - 使用知识图谱基础结构存储实体和关系 - 通过ComplEx进行知识图谱嵌入 - 点评:保持了完整的图结构信息便于逻辑推理 | - 使用模糊逻辑向量表示实体 - 采用矩阵形式存储关系概率 - 点评:向量化表示提升了计算效率 | - 结合LLM输出和知识图谱推理 - 通过模糊逻辑实现图谱和LLM的联合推理 - 点评:创新性地实现了LLM和知识图谱的优势互补 | - 提出LQOT框架实现复杂逻辑查询 - 将查询分解为子问题提升准确性 - 使用模糊逻辑向量统一表示方法 点评:通过框架设计和模糊逻辑实现了知识图谱和LLM的深度融合 |
KEQING | - 通过逻辑链条构建知识图谱检索路径 - 引入种子实体和问题依赖关系指导检索 - 点评:创新性地将逻辑链作为检索指导 | - 使用RoBERTa进行问题模板匹配 - 采用语义相似度进行模板排序 - 点评:有效结合了语义匹配增强检索精度 | - 结合问题模板与逻辑链条的混合检索机制 - 支持多轮检索和答案推理的混合架构 - 点评:通过混合检索提升了回答准确性和可解释性 | - 提出问题分解与逻辑链对齐的检索框架 - 采用多阶段检索推理流程(分解-检索-推理-生成) - 支持复杂问题的逐步分解和推理 - 点评:创新性地将Chain-of-Thought思想应用于KBQA检索过程 |
2.4 检索查询阶段
当处理知识图谱问答时,在进行基于嵌入匹配的检索之前通常会通过图搜索获取节点、边或子图的信息
这个操作通常是通过识别相关节点/边/子图来完成的,使用实体链接、关系匹配以及图搜索算法 (e.g., 广度优先搜索、深度优先搜索、蒙特卡洛树搜索、A * 搜索、最短路径)
2.4.1 检索器选型(选择用什么工具来找):选择合适的检索引擎,影响查找过程的效率和质量
检索器选型,就是选择用什么工具来找:
- 解决问题:查询准确性不足、处理速度慢、难以对齐
- 采用方案:
- 非参数检索器:基于规则和传统算法,实现高效但缺乏灵活性
- 语言模型检索器:能理解自然语言查询,但可能产生幻觉
- 图神经网络检索器:捕获结构特征,但训练成本高
论文名称 | 非参数检索器 | 语言模型检索器 | 图神经网络检索器 | 特色 |
---|---|---|---|---|
KAG | - LLMFriSPG框架支持信息抽取和知识构建 - deep text-context awareness文本上下文感知 - mutual-indexing双向索引 - KG反馈增强 - 基于图结构进行精确检索 - 结合文档和子图信息进行综合检索 | × | × | - 提出LLMFriSPG框架,实现文本和图结构的深度融合 |
GraphRAG | 基于社区的图检索算法(Leiden算法) - 使用模块化分区进行检索 | - 使用LLM对检索结果进行打分排序 - 使用LLM进行实体和关系抽取 - 使用LLM进行查询聚焦摘要 | × | - 基于LLM的检索 - 社区级检索,利用图的模块化和层次社区结构进行全局摘要 |
MedGraphRAG | 使用余弦相似度计算: - 计算实体内容嵌入相似度 - 计算标签之间的相似度 - 使用启发式规则进行图搜索 - 基于路径长度和置信度排序 | - 图构建LLM (L^G):用于构建图和生成标签 - 响应LLM (L^R):用于处理查询和生成响应 | - 使用GNN进行图数据表示 - 结合标签汇总进行检索 | - Triple Graph Construction三层图构建 - U-Retrieval检索策略 - 整合可信医疗来源和词汇库 |
LightRAG | 使用启发式规则和传统图搜索算法 | - LLM实体关系抽取 - LLM生成文本描述 - LLM进行全局主题检索 - LLM优化关系表示 | × | - 双层并行检索 - 轻量级设计 - 高效增量更新 - 关系语义增强 |
MindMap | - 使用基于规则的路径探索(k-hop限制) - 使用基于规则的邻居扩展(1-hop扩展) - 点评:使用启发式规则和图搜索, 高效但灵活性不足 | - 使用LLM进行问题实体抽取 - 使用LLM进行证据图理解和推理 | × | - 基于规则的非参数检索 - 支持LLM检索 - 可选GNN检索方案 |
KI-DDI | 使用sf-idf(症状频率-逆疾病频率)方法计算症状-疾病权重,基于启发式规则进行检索 | 使用SapBERT模型对医疗对话文本进行编码和检索,包括自报告症状和医生问诊内容的编码 | 使用GAT(图注意力网络)对症状-疾病知识图谱进行结构化表示学习,通过注意力机制聚合节点信息 | - 统计特征检索:基于sf-idf的症状-疾病关联计算 - SapBERT医疗对话编码检索 - GAT图结构检索:基于注意力的节点信息聚合 - 双通道并行检索架构 |
medIKAL | 最短路径搜索 | 评估关联性和分类知识 | × | 混合检索器方案 |
GraphReader | - 基于agent的探索式检索 - read_chunk/search_more等核心函数进行控制 - 从原子事实到邻居的多层检索 | - 使用LLM提取原子事实 - 通过LLM进行文本到结构化知识的转换 - 基于notebook的记忆式检索 | × | - 三层递进检索架构 - agent自主探索 - 基于原子事实的语义检索 - 记忆式渐进检索 - 动态探索路 |
GEAR | - 基于BM25等传统检索模型 - 使用RRF(Reciprocal Rank Fusion)融合多源结果 | - 使用LLM抽取和总结知识三元组 - LLM参与knowledge synchronization过程 | - 使用轻量级语义模型计算查询与三元组序列之间的相似度 - 用于多样化beam search | - 混合检索架构 - 同步知识机制 - 多样性beam search - 记忆增强检索 - 低成本语义检索 |
OG-RAG | - 使用贪心算法选择最小超边集 - 基于本体规范进行结构化检索 | - 使用句子嵌入函数Z计算相似度 - 支持查询与节点/值的匹配 | × | - 本体驱动的检索机制 - 超图结构的创新检索 - 高效的贪心优化 - 双重相似度计算 - 结构化知识检索 |
HybgRAG | - 使用VSS(向量相似度搜索)进行文档检索 - 基于知识图谱的启发式搜索算法 - 用于ego-graph的抽取 | - 使用LLM作为router识别查询主题实体和关系 - LLM validator验证检索结果 - LLM commentor提供改进建议 | - 利用GNN进行节点表示学习 - 通过注意力机制聚合邻居信息 | - 三模态混合检索架构 - 自适应检索策略 - 动态权重调整 - 多层次知识融合 |
KG4Diagnosis | - 基于置信度阈值(τ=0.7)的GP筛选 - 专家验证的知识路由机制 | - GP-LLM作为初筛检索器 - 专科医生LLM作为领域检索器 - 基于BioBERT的实体检索 | - BioBERT医学实体识别 - GNN增强的语义检索 | - 分层多模型检索架构 - 医学专业知识导向 - 专家验证增强 - 语义驱动的实体抽取 |
KARE | - 使用Leiden算法进行社区检测 - 基于node hits/coherence/recency/theme relevance的多维度评分 | - 使用LLM生成和评估社区摘要 - 基于confidence score的推理链评估 | × | - 多维度综合评分机制 - 动态权重调整 - 社区级摘要检索 - LLM增强的评估体系 |
KG-LLM | - 使用深度优先搜索(DFS)进行路径检索 - 基于路径长度(2-6跳)的过滤规则 | - 使用LLM进行Chain-of-Thought推理 - 基于Cross-Entropy Loss的评分机制 | × | - 简单高效的DFS路径检索 - 基于CoT的推理检索 - 路径长度限制的启发式规则 - ICL增强的检索效果 |
DR.KNOWS | - 基于症状相似度的匹配检索 - 层次聚类的组内检索 - 置信度阈值过滤 | - 基于症状描述的文本匹配 - LLM辅助的诊断推理 - 专家知识增强检索 | × | - 多层次检索架构 - 症状聚类驱动 - 专家知识引导 - 置信度阈值控制 |
Graph-Based Retriever | - 使用KAZU框架进行实体标准化 - 基于知识图谱的路径检索 - 基于Pareto前沿的排序检索 | - 使用PubmedBERT进行实体关系抽取 - 支持6种关系类型预测 | × | - 生物医学实体识别 - Pareto多目标优化 - 知识图谱引导检索 - 降采样平衡机制 |
KG-RAG | - UmlsBERT编码计算相似度 - MMR机制去重和多样性平衡 - 权重动态调整(w = wbase + δ · n) | - Answer Expansion生成扩展查询 - MedCPT交叉编码器重排序 - 医学领域适配 | × | - 多层次排序机制 - 专业医学领域优化 - 自适应权重调整 - 相似度与多样性平衡 |
DoG | - get_relations API接口 - triple_filling 检索机制 - 迭代式检索控制 | - 多角色LLM协同检索 - 问题简化驱动检索 - 基于三元组的验证机制 | × | - 多角色协同检索 - 渐进式推理优化 - 灵活的模型适配 - 高可解释性 |
GNN-RAG | - 使用最短路径算法进行路径检索 - PageRank算法辅助节点重要性评估 - 概率阈值(0.95)的过滤机制 | - LLaMA2-Chat-7B作为语言理解和推理组件 - RAG prompt tuning优化检索效果 | - ReaRev GNN进行密集子图推理 - SBERT和LMSR双重GNN编码器 - 多层消息传递的图结构学习 | - 创新性GNN与LLM结合 - 高效的检索框架 - 多模型协同增强 - 灵活的模型适配性 |
KI-DDI | - sf-idf算法计算边权重 - 基于症状频率的过滤机制 - 启发式的子图提取规则 | - SapBERT编码医疗对话文本 - 对话和症状的语义表示学习 | - GAT网络进行图结构学习 - 基于注意力的节点消息传递 - 动态症状-疾病关联推理 | - 医疗领域特化的检索框架 - 多模态信息融合 - 可解释的检索结果 - 高准确率的疾病诊断 |
Think-on-Graph | - Beam Search算法搜索路径 - 广度优先的探索策略 - 基于评分的路径剪枝 | - LLM作为智能体指导搜索 - 动态评估路径相关性 - 语义理解驱动的探索 | - 无需专门的GNN模块 - 依靠LLM理解图结构 - 直接进行路径评估 | - LLM驱动的智能搜索 - 灵活的路径探索策略 - 动态评估与剪枝 - 无需额外训练 |
Tree-of-Traversals | - Best-First Search算法 - 基于ASM的状态转换 - 动态深度和扩展控制 | - LLM驱动的节点评估 - 基于value function的路径评分 - 结构化的推理过程 | - 不使用专门的GNN - 依赖LLM理解图结构 - ASM管理图操作 | - 基于ASM的结构化检索 - 零样本检索能力 - 多知识源协同 - 可控的检索深度 |
PBXAI | - Beam search控制搜索 - 基于policy的路径选择 - 动态mask机制 | x | - RBM学习实体表示 - Autoencoder学习患者特征 - 基于状态向量的决策 | - RL驱动的混合检索 - 动态调整检索策略 - 可解释的路径生成 - 高效的状态空间探索 |
TECHGPT-2.0 | × | - 使用生成式LLM进行实体识别(NER) - 使用生成式LLM进行关系抽取(RTE) - 基于ChatGLM架构进行知识图谱构建 | - QLoRA微调优化图表示 - Position interpolation处理长文本 - 多领域知识融合 | - 大模型驱动检索 - 多领域适配 - 长文本处理 - 知识图谱构建 |
AliCG | - 使用bootstrapping进行概念抽取 - 采用alignment consensus进行对齐 - 基于用户行为的启发式规则 | - 使用双塔模型进行概念匹配 - 概念-文本表示学习 | - 利用GNN进行概念层次建模 - 使用注意力机制增强节点表示 | - 多模型协同检索 - 基于用户行为的动态调整 - 层次化概念表示 |
ChatKBQA | - 使用SPARQL执行结构化查询 - 采用beam search进行路径搜索 - TopKwithThreshold筛选机制 | - 基于fine-tuned LLM生成logical form - SimCSE/Contriever无监督向量检索 - BM25词频相似度检索 | × | - 生成式检索策略 - 多模型协同检索 - 可插拔架构设计 - 基于逻辑形式的结构化检索 |
HyKGE | - 使用基于路径的搜索 - 基于hop数限制的图搜索 | - 使用GPT 3.5和Baichuan等LLM生成假设输出 - 使用bge-reranker-large进行重排序 | - 使用GTE编码器进行实体嵌入 | - 假设输出引导检索 - 多模型协同工作 - 平衡相关性和多样性 |
GNP | - 基于实体链接的邻居检索 - 使用两跳邻居扩展策略 | - 使用LLM编码文本输入 - 通过跨模态注意力机制计算相关性 | - 使用标准GNN编码器 - 基于GAT进行图结构编码 - 通过消息传递获取节点表示 | - 多模态检索结合 - 结构感知编码 - 跨模态对齐 - 自适应节点选择 |
2.4.2 检索方案(决定怎么找):设计查找策略和流程,决定如何精准定位所需信息
检索方案,就是决定怎么找:
- 一次找完:直接找到想要的
- 分步找:先找大致方向,再具体找
- 多阶段:用不同方法配合着找
- 解决问题:如何提高检索信息的相关性和深度
- 采用方案:
- 单次检索:简单高效但信息可能不完整
- 多步检索:迭代优化但耗时较长
- 多阶段检索:精确度高但实现复杂
论文名称 | 单次检索 | 多步检索 | 多阶段检索 | 特色 |
---|---|---|---|---|
KAG | 向量和知识图谱检索 | 使用反思机制进行迭代检索 | 划分为多个检索阶段 | - 逻辑形式引导检索 - 自适应迭代检索 - 反思机制 - 多模态混合检索 |
GraphRAG | × | × | 分阶段的检索流程(原始文档到元素实例 -> 元素摘要到图社区 -> 社区答案和全局答案生成) | - 社区级分阶段检索 |
MedGraphRAG | × | × | - Top-down Precise Retrieval:从顶层标签逐层索引 - Bottom-up Response Refinement:向上层回溯优化 - 4-6层迭代优化架构 | - U型迭代检索架构 - 全局视角与检索效率平衡 - 医疗领域定制化检索 |
LightRAG | × | - 低层次实体检索 - 高层次主题检索 - 增量式迭代更新 | × | - 双层并行检索 - 增量式更新 - 语义对齐优化 - 高效检索调度 |
MindMap | × | × | × | - 不是多次多阶段,而是一个结构化的多阶段检索框架 - 路径子图(知识连接性) + 邻居子图(知识相关性)+ LLM整合推理 |
KI-DDI | 基于对话和知识图谱构建联合图进行一次性检索,结合对话节点和症状-疾病子图进行统一检索 | × | × | - 基于对话节点和症状-疾病知识图谱的单次子图检索 |
medIKAL | × | × | 实体识别和匹配、实体类型权重候选疾病定位、路径的重排序 | - 不是多次多阶段,而是一个结构化的多阶段检索框架 以实体类型权重为导向,通过路径评分重排序,最后结合LLM推理的结构化检索框架 |
GraphReader | × | - 基于先前检索结果的自适应多步搜索 - Coarse-to-fine探索策略 - Notebook实时更新记录信息 - 根据rational plan动态调整 - 自适应停止机制 | - 探索原子事实阶段 - 探索文本块阶段 - 探索邻居节点阶段 | - 三层渐进式检索:原子事实→文本块→邻居节点 - agent自适应探索策略 - notebook记忆增强多步检索 - 基于rational plan的动态规划检索 - 支持灵活的终止条件 |
GEAR | - Hybrid + SyncGE实现高效单次检索 - 结合base retriever(如BM25)初始检索和graph expansion进行子图扩展 - Diverse Triple Beam Search算法确保检索结果多样性 - RRF融合base retriever和graph expansion的结果 | - Gist Memory迭代机制 - 知识同步和图扩展 - 自适应终止判断 - LLM query rewriting | - Base retriever初始检索 - SyncGE图扩展检索和子图检索 - Gist Memory整合多轮检索结果 - RRF多阶段融合 | - SyncGE实现高效单次检索 - 支持多轮迭代的自适应检索 - 通过Gist Memory实现跨步骤知识累积 - 结合base retriever和graph expansion的多阶段检索 |
OG-RAG | - 基于超图的单次贪心优化检索 - NS(Q)和NV(Q)双重相似度检索 - 一次性最小化超边集合选择 | × | × | - 基于贪心算法的单次优化检索 - 通过本体约束提升检索质量 - 超边集合的最小化选择 - 支持复杂关系的整体检索 |
HybgRAG | - VSS直接在文档中检索 - 基于文档-问题相似度的一次性检索 | - 通过critic模块迭代优化 - 最多支持4轮检索迭代 - 基于反馈的自适应检索改进 | - 文本检索模块和混合检索模块协同 - 先识别实体关系再检索相关文档 - 结果验证和反馈阶段 | - 支持灵活的检索模式切换 - 迭代式优化检索结果 - 多阶段协同检索策略 - 自适应检索深度调整 |
KG4Diagnosis | × | - GP-LLM初步筛选 - 专科医生LLM深入诊断 - 基于置信度的动态迭代- 语义实体抽取阶段 - 决策关系重建阶段 - 专家知识扩展阶段 | - 语义实体抽取阶段 - 决策关系重建阶段 - 专家知识扩展阶段 | - 分层诊断检索架构 - 专科协同诊断机制 - 动态置信度调整 - 知识验证反馈环 |
KARE | × | - DGRA动态图检索算法 - 迭代式选择社区摘要 - 基于历史选择动态更新权重 | - 社区检测和摘要生成 - 动态知识检索和增强 - 推理增强预测 | - 动态迭代检索 - 多层次社区结构 - 自适应权重更新 - 推理能力增强 |
KG-LLM | × | - 基于DFS的迭代路径探索(2-6跳) - 每个节点作为根节点迭代检索 - 路径去重和有效性过滤 - 使用Cross-Entropy Loss优化 - 正负样本平衡处理 | - 图路径预处理阶段: 1. DFS提取路径 2. 路径去重和长度过滤 3. 样本平衡处理 - 指令微调阶段: 1. 路径转自然语言 2. ICL样例检索优化 3. CoT推理评估 | - 双阶段检索架构: 1. DFS路径提取 2. 基于ICL的检索优化 - 特点: 1. 多跳路径检索 2. CoT推理增强 3. 动态评分优化 |
DR.KNOWS | × | - 基于症状层次的迭代检索 - 动态更新置信度阈值 - 专家知识验证循环 | - 症状匹配阶段 - 诊断推理阶段 - 专家验证阶段 | - 层次化诊断架构 - 动态迭代优化 - 专家知识融合 - 多阶段质量保证 |
Graph-Based Retriever | × | - 迭代式图遍历检索 - 基于降采样的平衡策略 - 通过Pareto前沿优化选择 | - 实体识别阶段 - 关系抽取阶段 - 图结构检索阶段 | - 多阶段迭代检索 - Pareto优化策略 - 降采样平衡机制 - 生物医学领域适配 |
KG-RAG | × | - 实体识别→关系检索→重排序 - 多轮排序优化(相似度→扩展→MMR) - 动态权重自适应调整 | - 医疗实体识别阶段 - UMLS知识图谱检索阶段 - MedCPT重排序阶段 | - 医学专业化检索流程 - 多层级检索架构 - 动态优化机制 - 完整端到端框架 |
DoG | × | - 迭代式推理检索 - 基于答案验证的多轮优化 - 动态路径探索 | - 关系过滤阶段 - 答案尝试阶段 - 问题简化阶段 | - 迭代深入的检索策略 - 多角色验证机制 - 动态自适应优化 - 可控的推理过程 |
GNN-RAG | - GNN进行一次性密集子图检索 - 基于概率分数的答案排序 | - GNN的多层消息传递 - 基于最短路径的迭代优化 | - GNN推理检索阶段 - 路径抽取阶段 - LLM RAG推理阶段 | - 高效的密集子图检索 - 多层次推理优化 - 清晰的阶段划分 - 端到端可训练 |
KI-DDI | - 基于对话内容的症状提取 - 初始子图构建 | - 通过GAT的多轮消息传递 - 动态更新节点表示 | - 对话编码阶段 - 知识图谱检索阶段 - 疾病诊断阶段 | - 双通道架构设计 - 渐进式知识融合 - 动态的症状探索 - 高效的诊断推理 |
Think-on-Graph | - 初始实体识别 - 邻域扩展搜索 | - 迭代式beam search - 动态路径评估 - 自适应深度探索 | - 探索-评估-推理循环 - 多轮路径验证 - 渐进式知识获取 | - 智能化的探索策略 - 动态深度控制 - 可解释的搜索过程 - 高效的知识获取 |
Tree-of-Traversals | - 初始实体识别 - ASM引导的扩展 | - 树结构支持回溯 - 动态value评估 - 基于置信度的探索 | - 实体选择-关系扩展-评估 - 多路径并行探索 - 基于ASM的阶段管理 | - 结构化的探索框架 - 支持回溯和分支 - 可控的检索深度 - 多路径并行检索 |
PBXAI | - 初始病人实体连接 - 基于beam search的扩展 | - Actor-Critic框架引导 - 动态路径概率更新 - 基于reward的优化 | - 实体链接-路径生成-评估 - 多路径并行探索 | - 自适应的检索策略 - 动态平衡探索与利用 - 可解释的路径生成 - 支持多步推理 |
TECHGPT-2.0 | - 基于实体识别的单次检索 - 基于关系抽取的单次检索 | × | - 先进行NER识别 - 再进行RTE抽取 - 最后进行知识图谱构建 | - 分阶段构建 - 领域知识整合 - 效率优化 |
AliCG | - 基于概念嵌入的直接检索 - 用户点击行为指导的检索 | - 自适应概念扩展 - 基于用户行为的迭代优化 | - 概念层级分阶段检索 - 从粗粒度到细粒度的渐进式检索 | - 层次化检索策略 - 用户行为感知 - 动态更新机制 |
ChatKBQA | - 基于logical form进行直接检索 - 使用向量相似度计算检索相关性 | - 实体检索和关系检索的迭代优化 - 通过beam search实现多路径探索 | - 分为生成-检索-执行三个阶段 - 实体和关系分阶段检索和优化 | - 生成驱动检索 - 迭代优化检索 - 多阶段协同机制 - 基于概率的筛选 |
HyKGE | × | - 从假设输出提取实体 - 基于实体进行链接检索 | - 第一阶段:假设生成和实体提取 - 第二阶段:推理链检索 - 第三阶段:重排序筛选 | - 基于假设的分阶段检索 - 渐进式精化 - 多维度评估 |
GNP | - 基于实体链接的初始检索 - 通过GNN编码进行单次图结构检索 | × | × | - 实体链接引导 - 结构化编码检索 - 跨模态注意力 - 单次高效检索 |
2.4.3 检索颗粒度(找多细的内容):确定检索内容的详细程度,平衡全面性和效率
检索颗粒度,就是决定找多细的内容:
- 找具体的点(节点):像找一个具体的名词
- 找简单关系(三元组):像找"谁做了什么"
- 找连续关系(路径):像找一连串相关的事情
- 找相关区域(子图):像找一整个相关的知识领域
- 解决问题:如何选择合适的检索信息形式
- 采用方案:
- 节点级:精确但信息有限
- 三元组级:结构化但可能缺失上下文
- 路径级:关系完整但计算复杂
- 子图级:信息全面但规模可能过大
论文名称 | 节点级 | 三元组级 | 路径级 | 子图级 | 特色 |
---|---|---|---|---|---|
KAG | × | × | × | - 实例图:包含KGcs和KGf r中的事件和实体实例 - 文本块:符合Chunk实体类型定义的特殊实体节点 -概念图:用于知识对齐的核心组件,包含概念和概念关系 | - 多粒度协同检索 - 语义增强对齐 - 概念图谱导航 |
GraphRAG | × | × | × | - 社区层次子图 - 多级别子图检索 | - 多粒度社区检索 |
MedGraphRAG | 医学实体节点: - name - type - context | [RAG entity, source, definition]三元组结构 | × | Meta-MedGraphs:包含实体及其关系的子图 | - 层次化的知识组织 - 医疗专业知识集成 - 源与定义关联的三层结构 |
LightRAG | - 实体节点检索 - 属性节点映射 | - 实体-关系-实体检索 - 关系语义表示 | × | × | - 实体关系粒度 - 主题标签粒度 - 双层语义整合 - 轻量级检索 |
MindMap | - 实体节点识别 - 实体向量表示 | - SPO三元组抽取 - 三元组文本转换 | - k-hop受限路径探索 - 多条路径的连接与合并 | - Path-based证据子图 - Neighbor-based证据子图 - 证据子图的聚类与采样 | - 路径导向探索(k-hop paths) - 邻居导向探索(neighbor subgraphs) - 证据图双路集成 |
KI-DDI | - 症状节点检索 - 疾病节点检索 | × | × | - 构建症状-疾病知识子图 - 联合对话节点与知识子图 | - 症状节点检索 - 疾病节点检索 - 症状-疾病知识子图检索 - sf-idf加权的知识图谱构建 |
medIKAL | EMR实体与KG节点的初始匹配 | 用于初步匹配和疾病定位 | 用于计算实体间关联强度 | 用于构建疾病-患者信息关联网络 | 混合粒度 |
GraphReader | 使用key elements作为节点进行初始检索和导航 | × | 通过rational plan指导的路径探索 | 构建并探索包含atomic facts的图结构 | 基于图的渐进式探索策略 - 计划导向的多跳推理 - 支持4k上下文窗口处理长文本 |
GEAR | 通过passageLink定位关键节点 | - 基于proximal triples的知识表示 - 三元组与文档的同步对齐 | 通过Diverse Triple Beam Search构建推理链 | 通过graph expansion生成相关子图 | - 多粒度混合检索 - 知识同步机制 - 灵活的粒度选择 - 支持动态扩展 |
OG-RAG | - 基于超图节点的检索 - 节点与查询的相似度计算 - 键值对形式的节点表示 | - 基于主谓宾的三元组表示 - 本体映射的三元组关系 | × | - 基于超边的子图封装 - 使用超边集合表示复杂关系 - 最小子图覆盖选择 | - 超边封装的多粒度检索 - 本体规范的结构化粒度 - 节点-值对的双重表示 - 支持复杂关系的混合粒度 |
HybgRAG | - 检索主题实体 - 识别相关实体节点 | - 抽取实体间关系 - 构建实体-关系-实体三元组 | - 生成实体间推理路径 - 验证路径合理性 | - 抽取ego-graph - 多实体情况下的子图交集 | - 多粒度混合检索策略 - 动态粒度选择机制 - 层次化知识组织 - 自适应粒度调整 |
KG4Diagnosis | - 医疗实体节点 - 疾病症状节点 | - 疾病-症状关系 - 治疗方案关联 | - 诊断推理路径 - 专科转诊路径 | - 疾病相关子图 - 治疗方案子图 | - 多层次医学知识表示 - 专业领域知识组织 - 诊断路径推理 - 协同诊断支持 |
KARE | - 基于node hits的节点重要性评估 - 直接和间接节点的差异化处理 | × | × | - 基于社区的子图检索 - 层次化社区结构 - 主题相关和通用摘要生成 | - 多层次社区结构 - 动态子图检索 - 摘要增强的语义表达 - 医疗领域适配 |
KG-LLM | - 维护节点ID标准化映射表 - 节点转自然语言描述 - 支持直接节点检索和匹配 | - 保留主谓宾三元组结构 - 三元组转自然语言描述 - LLM处理转换后信息 | - 基于连续关系构建路径 - 2-6跳路径长度限制 - DFS路径探索和提取 - 路径转自然语言处理 | × | - 多粒度检索策略: 1. 节点ID映射 2. 路径级多跳检索 3. 三元组转自然语言 - 颗粒度平衡: 1. 2-6跳路径限制 2. 结构化到自然语言的映射 3. 支持多级检索需求 |
DR.KNOWS | - 症状节点 - 疾病节点 - 检查项节点 | - 症状-疾病关系 - 症状-检查关系 - 疾病-治疗关系 | - 诊断推理路径 - 治疗方案路径 | - 疾病相关子图 - 症状层次子图 | - 多粒度知识表示 - 层次化组织结构 - 诊断路径导向 - 综合信息集成 |
Graph-Based Retriever | - 基因节点 - 疾病节点 - 化合物节点 | - 支持6种关系类型的三元组 - 基于PubmedBERT的关系抽取 | - 实体间最短路径 - 基于降采样的路径优化 | - 通过降采样平衡的子图检索 - 支持长尾知识获取 | - 多粒度混合检索 - 生物医学领域知识表示 - 降采样平衡策略 - 长尾知识获取支持 |
KG-RAG | - 医疗实体节点检索 - UMLS概念节点匹配 | - UMLS一跳关系检索 - 医学知识三元组抽取 | - 基于重排序的路径优化 - 医学知识推理路径构建 | - 通过三元组构建相关子图 - 医学知识上下文整合 | - 多粒度检索策略 - 医学知识结构化 - 层次化信息组织 - 灵活检索颗粒度 |
DoG | - 实体节点识别 - 关系节点过滤 | - 完整三元组验证 - 单步三元组分析 | - 渐进式路径构建 - 辩论引导路径选择 | - 子图聚焦机制 - 动态子图构建 | - 多粒度协同检索 - 渐进式粒度控制 - 灵活的粒度调整 - 精确的上下文把控 |
GNN-RAG | - 基于GNN的节点概率打分 - 问题实体节点定位 - 答案候选节点识别 | - 问题-关系匹配 - 通过ω(q,r)函数评估关系相关性 | - 基于最短路径的路径抽取 - 从问题实体到答案的路径验证 | - Dense Subgraph检索机制 - 多跳推理的子图保持 - 结构化信息的完整性维护 | - 多粒度协同检索 - 结构感知的检索策略 - 高效的路径探索 - 完整的信息保持 |
KI-DDI | - 症状节点识别 - 疾病节点分类 | - 症状-症状关联 - 症状-疾病映射 | - 症状到疾病的推理路径 - 基于GAT的路径重要性评估 | - S-S-D知识图谱结构 - 动态子图过滤 - 结构化诊断推理 | - 医疗领域特化的粒度设计 - 多层次的知识表示 - 完整的诊断链路 - 高效的信息集成 |
Think-on-Graph | - 初始实体识别 - 关键节点定位 | - 实体关系抽取 - 动态三元组评估 | - 推理路径构建 - 路径重要性评分 - 多路径探索 | - 动态子图生成 - 相关性过滤 - 知识整合 | - 多粒度知识表示 - 灵活的路径探索 - 动态的知识整合 - 可追溯的推理链 |
Tree-of-Traversals | - 实体选择 - 节点状态追踪 | - 动态关系选择 - 三元组扩展和评估 | - 树结构化路径管理 - value function引导 - 路径回溯能力 | - 动态子图构建 - 局部KG维护 - 多知识源整合 | - 多粒度检索整合 - 结构化状态管理 - 灵活的粒度选择 - 高效的知识获取 |
PBXAI | - 实体状态追踪 - 动态mask管理 | - 关系表示学习 - 动态边选择 | - RL引导的路径生成 - 多样性路径探索 - 概率路径排序 | - 病人中心子图构建 - 动态子图扩展 - 子图状态评估 | - 多粒度协同检索 - 自适应粒度选择 - 可解释路径生成 - 高效状态管理 |
TECHGPT-2.0 | - 实体节点识别 - 多领域实体处理 | - 关系三元组抽取 - 实体关系映射 | × | - 领域子图构建 - 知识图谱整合 | - 多级颗粒度 - 领域适配 - 结构化表示 |
AliCG | - 概念节点检索 - 实例节点检索 | - 概念-实例关系 - 概念层次关系 | - 概念层级路径 - 用户行为路径 | - 四层概念子图 - 动态更新子图 | - 多层次概念架构 - 动态图更新 - 用户行为感知 |
ChatKBQA | - 实体节点检索 - 关系节点检索 | - 基于实体-关系-实体的三元组检索 - logical form指导的三元组构建 | - logical form定义的查询路径 - SPARQL执行的路径搜索 | - 通过实体检索和关系检索构建相关子图 - 概率阈值控制子图大小 | - 多粒度检索融合 - 结构化检索指导 - 概率阈值控制 - 逻辑形式驱动 |
HyKGE | - 从hypothesis和query中提取实体节点 | × | - 路径类推理链 - 共同祖先链 - 共现链 | - 基于实体的局部子图 - 通过推理链连接的子图 | - 多粒度检索策略 - 路径导向检索 - 结构化知识获取 |
GNP | - 基于实体链接的节点匹配 - 通过注意力机制选择重要节点 | × | × | - 基于两跳邻居构建子图 - 使用GNN编码子图结构 | - 多级粒度结合 - 结构感知编码 - 动态节点选择 - 子图级信息聚合 |
2.4.4 检索增强策略(让找东西更准确):优化检索过程,提升结果的相关性和准确性
检索增强策略,就是让找东西更准确:
- 扩展搜索范围:比如搜索"手机"时也找"智能手机"相关的
- 把复杂问题分解:把"谁发明了手机并在哪年投产"分成两个问题来找
查询扩展 通过添加具有相似意义的有意义术语来丰富查询,主要解决三个挑战:
- (1)用户提交的查询模糊且涉及多个主题;
- (2)查询可能过于简短而无法充分捕获用户的意图;
- (3) 用户经常不确定他们正在寻找什么,基于LLM的查询扩展
查询分解 的目的是将输入的查询拆分为多个不同的子查询,这些子查询用于首先检索子结果,并将这些子结果汇总以获得最终的结果。
在大多数现有的 RAG 和 GraphRAG 中,分解后的查询通常具有明确的逻辑连接,可以处理需要多步推理和规划的任务。
每个子任务都会由特定的子查询完成,通过构建问题图来增强查询的分解,在该图中,每个子查询都表示为图中的三元组。
这些结构化的子查询有效地引导检索器/生成器进行多步骤提示。
查询结构化将查询转换为特定数据源和任务的格式。
它通常会将自然语言查询转换为类似于SQL或SPARQL这样的结构化格式,以与关系数据库交互。
最近的进步利用预训练并微调的LLM来生成从自然语言输入到查询数据库的结构化查询。
对于图结构化的数据,出现了诸如Cypher、GraphQL和SPARQL等图形查询语言(GQL),这些语言使复杂地与属性图数据库进行交互成为可能。
Jin等人 提出了一种技术,该技术将复杂的查询分解为多个结构化操作,包括节点检索、特征获取、邻居检查以及度评估,从而增强了查询的精确性和适应性。
论文名称 | 查询扩展 | 查询分解 | 特色 |
---|---|---|---|
KAG | - 知识实例标准化:解决同义词 - 实例与概念的关联:预测实例对应的概念并添加所属的类别关系 - 概念间关系补全:补充完整各种概念之间的关系 - 语义增强检索:不仅看字面相似度,还考虑概念间的逻辑关联 | - 逻辑形式分解 - 多步推理分解 - 反思式分解 | - 概念语义扩展 - 逻辑形式分解 - 多轮迭代优化 - 知识图谱增强 |
GraphRAG | - 使用LLM生成对社区内容的总结,通过社区摘要扩充原始查询信息 - 对不同社区生成的答案进行合并,基于LLM评分进行重排序整合 | - 查询分解至社区 | - 基于社区的图检索方法,通过多阶段、子图颗粒度的检索方案,结合LLM的总结和评分能力 |
MedGraphRAG | - 通过预定义医学标签丰富查询内容 - 层次化标签结构提供更广泛的检索范围 - 通过Triple Graph提供额外的来源和定义信息 | - 将查询映射到标签体系 - 通过U-Retrieval逐层分解和定位 | - 医疗领域特化的检索增强 - 基于标签的层次化检索 - 循证医学支持 |
LightRAG | - 局部关键词扩展 - 全局主题扩展 - 高阶关联性增强 - 向量语义匹配 | - 低层次/高层次检索分解 - 实体与主题双向分解 - 增量式查询优化 | - 高低层关键词增强 - 双层语义分解 - 增量更新优化 - 轻量级设计 |
MindMap | - LLM提取问题中的关键实体 - BERT计算实体与关键词相似度 - 基于相似度的实体匹配和扩展 | x | - LLM提取问题中的关键词 + Bert相似度匹配实体与关键词 |
KI-DDI | - 使用医疗术语标准化扩展症状表述 - 通过sf-idf方法计算症状-疾病关联权重 - 利用SapBERT模型进行语义辅助的症状识别 | 不使用查询分解策略 | x |
medIKAL | - 通过实体类型权重进行查询权重增强 - 基于医疗领域知识的实体对齐 | - 将EMR按不同方面(症状、病史、用药等)进行分解 - 针对不同类型信息采用不同权重策略 | 实体类型加权机制、医疗实体对齐、结构化的查询分解、残差网络式整合(将LLM诊断结果与图谱搜索结果融合) |
GraphReader | - 通过key elements和atomic facts提取关键信息扩展查询范围 - 通过图结构中的节点关联发现相关信息 - 使用coarse-to-fine策略从粗粒度到细粒度逐步扩展搜索 | - 通过rational plan将复杂问题分解成多个子步骤 - 基于step-by-step分析设计搜索策略 - 通过graph exploration逐步解决每个子问题 | - 结合了图结构的导航能力和LLM的推理能力 - 通过notebook机制记录和整合多步骤的搜索结果 - 支持自适应的搜索路径规划和调整 |
GEAR | - 使用LLM提取proximal triples扩展查询信息 - 通过graph expansion发现相关知识 - 利用Gist Memory积累历史知识 | - 支持查询重写和分解 - 通过reason组件判断是否需要进一步分解 - 基于rewrite组件生成子查询 | - 同步知识增强 - 记忆式累积 - 自适应分解 - 多样性搜索 |
OG-RAG | - 通过本体映射扩展查询语义 - 使用超图结构增强查询表示 - 支持节点和值的双重匹配 | x | - 本体驱动的语义增强 - 基于超图的结构化表示 - 高效的贪心优化策略 - 复杂关系的完整保持 |
HybgRAG | - 使用LLM扩展查询语义 - 通过知识图谱增强查询表示 - 动态权重调整机制 | - 将复杂查询分解为子任务 - 基于任务类型的查询重组 - 支持多维度分解 - 将混合问题分解为文本和关系部分 - 分别进行检索后合并结果 | - 自适应查询优化 - 多模态知识融合 - 动态权重调整 - 交互式查询精炼 |
KG4Diagnosis | - BioBERT医学实体识别增强 - LLM语义理解扩展 - 专家知识验证扩展 | - 基于症状的初步诊断 - 专科领域细化诊断 - 协同会诊分解策略 | - 医学专业知识增强 - 多专科协同诊断 - 专家引导的知识扩展 - 分层诊断推理 |
KARE | - 多维度评分扩展(node hits/coherence/recency/theme relevance) - 动态衰减因子调整历史权重 - LLM生成的社区摘要增强 | x | - 多维度评分机制 - 动态权重更新 - 社区摘要增强 - 医疗领域适配 |
KG-LLM | - 基于ICL的查询增强 - 将结构化查询转换为自然语言 - Chain-of-Thought推理扩展 | x | - 创新特点: 1. 结构化到自然语言的转换 2. ICL增强的查询理解 3. CoT推理的查询扩展 - 技术优势: 1. 简单高效 2. 易于实现 3. 可扩展性强 |
DR.KNOWS | - 基于症状相似度的查询扩展 - 通过层次聚类扩充症状组 - 专家知识验证增强 | - 将复杂症状分解为基本症状组 - 基于器官系统的诊断分解 - 多专科协同诊断分解 | - 层次化症状组织 - 专业知识引导 - 多维度查询优化 - 动态更新机制 |
Graph-Based Retriever | - 使用KAZU框架进行实体标准化和扩展 - 通过PubmedBERT增强关系理解 - 支持生物医学实体别名识别 | - 将复杂查询分解为实体识别任务 - 基于实体关系的路径分解 - 支持多实体协同检索 | - 生物医学实体识别 - 关系预测增强 - 多目标优化检索 - 长尾知识平衡 |
KG-RAG | - Answer Expansion扩展查询 - UmlsBERT语义增强 - MedCPT交叉编码优化 - 医学专业术语扩展 | - 按医疗实体类型分解 - 基于UMLS关系类型分解 - 多层次检索任务分解 | - 医学领域专业增强 - 多维度查询优化 - 自适应检索策略 - 端到端质量保证 |
DoG | - 多角色引导扩展 - 基于辩论的查询优化 - 问题简化式扩展 | - 专家角色问题分解 - 评论家复杂性控制 - 语言学家优化简化 | - 辩论驱动的增强 - 渐进式查询优化 - 多角色协同增强 - 高度可控性 |
GNN-RAG | - SBERT和LMSR双重语义增强 - 基于Graph Neural Networks的结构化表示学习 - Dense Subgraph机制增强检索范围 | - Dense Subgraph到推理路径的分解 - 多跳路径到自然语言的转换 - RAG prompt tuning优化生成 | - 创新的GNN检索增强 - 结构化的信息分解 - 高效的检索改进 - 端到端的优化机制 |
KI-DDI | - 基于医生问诊的症状扩展 - 双通道的语义增强 - 注意力机制的知识融合 | - 自报症状与医生问诊分离 - 症状到疾病的结构化推理 - 多层次的诊断决策 | - 医疗对话特化的增强策略 - 结构化的诊断推理 - 可解释的决策过程 - 准确的疾病识别 |
Think-on-Graph | - LLM引导的实体扩展 - 动态知识补充 - 上下文相关性评估 | - 基于路径的推理分解 - 多步骤验证机制 - 分阶段的知识获取 | - LLM驱动的智能增强 - 动态知识扩展 - 可追溯的推理过程 - 高效的信息整合 |
Tree-of-Traversals | - ASM引导的实体扩展 - 多样性采样机制 - 基于value的选择 | - 基于ASM的状态分解 - 结构化的推理步骤 - 树形探索框架 | - ASM驱动的结构化增强 - 可追溯的检索过程 - 支持多知识源协同 - 零样本泛化能力 |
PBXAI | - 熵正则化促进多样性 - 动态路径扩展 - 基于reward的选择 | - 多步路径搜索分解 - 基于状态的任务分解 - 动态决策流程 | - RL驱动的检索增强 - 动态平衡策略 - 可解释的路径生成 - 高效的状态空间探索 |
TECHGPT-2.0 | - 多领域知识扩展 - 基于QLoRA的表示增强 - 长文本position interpolation | - NER任务分解 - RTE任务分解 - 知识图谱构建任务分解 | - 任务分解优化 - 领域知识增强 - 长文本处理 - 模块化设计 |
AliCG | - 基于用户行为的概念扩展 - 概念同义词识别 - 长尾概念挖掘 - 概念层次关系补充 | - 基于概念层级的分解 - 用户意图分解 - 时序演化分解 | - 用户行为驱动 - 概念演化感知 - 动态更新机制 - 长尾概念处理 |
ChatKBQA | - 使用beam search进行多路径探索 - 基于概率阈值的相似度扩展 - 支持多种相似度计算方法 | - 通过logical form进行结构化分解 - 实体和关系分离检索 - 基于SPARQL的查询分解 | - 生成式查询扩展 - 结构化分解检索 - 多模型协同 - 可插拔设计 |
HyKGE | - 使用LLM生成假设输出扩展查询实体 - 基于Embedding对齐扩展相关实体 | - 分段粒度分解查询 - 基于chunk window进行分解 | - 基于假设的查询增强 - 精细粒度的重排序 - 动态平衡相关性和多样性 |
GNP | - 通过跨模态注意力扩展相关性 - 基于自监督链接预测增强表示 - 通过领域投影实现语义对齐 | × | - 跨模态语义扩展 - 自监督表示增强 - 领域适配对齐 |
2.5 增强生成阶段(把找到的信息整理得易懂):处理和组织检索到的信息,输出清晰连贯的结果
在语义和结构两个方面,检索的内容可能不完整,因此需要进行图增强。
最后,检索的内容往往是一个图,不仅包含语义信息,还拥有其独特的结构。
这种复杂的结构性内容难以被由下一个token预测与线性化提示训练出来的LLM所消耗,这就需要结构感知的转述技术来重新组织。
图增强旨在丰富检索到的图,以提高内容或改进生成器的鲁棒性。
此过程可能涉及从外部数据或嵌入在LLMs中的知识中添加补充信息来丰富检索到的图。
主要有两种主要方法:
-
图结构增强:图结构增强方法涉及向检索的图中添加新节点和边。例如,GraphQA [388] 通过从上下文中提取名词短语片段节点来扩充检索子图。此外,Yasunaga 等人 [490] 和 Taunk 等人 [388] 把查询作为节点处理,并将其整合到检索的图中以创建与相关信息之间的直接连接。Tang 等人 [387] 基于预训练扩散模型对图结构进行增强。
-
图特征增强:图特征增强方法侧重于丰富图中的节点和边的特征。由于原始特征可能较长或稀疏,数据增强器可以用来总结这些特征或者提供额外细节。例如,Once [257] 使用LLMs作为推荐系统的摘要生成器、用户画像生成器和个人化内容生成器。同样地,LLM-Rec [275] 和KAR [456] 应用各种提示技术来丰富节点特征,使它们对下游任务更加有用。
此外,一些图增强技术仅专注于检索的图本身,例如随机删除节点、边或特征以提高模型鲁棒性。Ding 等人[85]对这些数据增强方法进行了系统综述。
&
增强生成阶段,就是把找到的信息整理成人能看懂的形式:
- 可以用自然语言说明(像写一篇文章)
- 可以用代码形式展示(像做一个列表)
- 可以用图形方式展示(像画一个关系图)
生成阶段面临一个核心问题:如何让AI模型理解图形式的数据 并据此生成回答?
两种处理方案:
- 用GNN(图神经网络)作为生成器
- 直接处理图数据
- 就像给GNN看一张关系图,它能直接理解
- 用LLM(大模型)作为生成器
- 问题:LLM只懂文本,不能直接理解图
- 解决方案:需要一个"翻译器"把图转成文字
- 两种转换方式:
- 图语言:把图转成文字描述
- 图嵌入:把图转成数值特征
假设有一张药物关系图:
药物A → 会加重 → 症状B
药物A → 不能与 → 药物C同用
- GNN方案:
- 直接理解这个关系图
- LLM方案:
需要先翻译成:
- 图语言形式:“药物A会加重症状B,且不能与药物C同时使用”
- 或转换成数值特征
然后LLM才能理解并生成回答。
这就像是:
- GNN能直接看懂"图片"
- LLM需要有人把"图片"描述成文字才能理解
图语言转换:将图结构/关系转成自然语言表述给用户:
- 简洁形式:“根据您的症状,可能性最高的是……建议进行以下检查:……”
- 专业形式:“(疾病A)-(症状B)加重,故需排查……药物C 可能有相互作用……”
论文名称 | 生成方式 | 图语言选择 | 特色 |
---|---|---|---|
KAG | - 大量练习让模型适应KG格式 - 根据KG反馈不断改进答案质量 | - LLMFriSPG知识表示框架 - 逻辑形式语言,分解查询、计算、推理 - 语义对齐,补充必要的领域专业知识 | - K-LoRA预训练 - 知识图谱反馈 - 支持多种图语言表示(方便高级查询) |
GraphRAG | 映射-归约、分层社区摘要生成、评分过滤 | 富文本(实体、关系、属性、协变量、声明) | - 社区摘要生成 - 全局一致性 |
MedGraphRAG | - U形检索生成:从大类标签下到最相关的详细内容,再上到高层信息完善回答 - 三重图生成:数据、来源出处、专业术语解 | 简单的三元组形式来表示图数据 | - 三层知识融合 - 高可信度 |
LightRAG | 多级生成:低层检索、高层检索、向量表示 | 实体与关系抽取、LLM概况分析、图结构来表示实体间的关系 | - 高效生成 - 动态适应 |
MindMap | 双路径证据整合(路径导向+邻居导向) | 将知识图谱中检索到的信息转换为结构化的自然语言描述 | - 多层次推理(摘要、推理链、思维导图) - 可解释性强(思维导图可视化) |
KI-DDI | 两通道融合生成 | 图注意力网络 | - 自然语言对话+图谱注意力双通道架构 - 知识图谱动态过滤和权重调整 - 基于sf-idf的症状-疾病关联权重计算 - 自适应注意力机制整合自述和对话信息 |
medIKAL | 实体类型权重为导向,通过路径评分重排序 | 将知识图谱中检索到的信息转换为结构化的自然语言描述 | - 将知识图谱中的信息按照症状关联、病史关联、用药关联、检查结果关联等分类,引导LLM对每个维度定量评分和推理 - 残差网络式的知识融合,避免过度依赖外部知识图谱 - 结构化评估,加入了自我一致性检查机制 |
GraphReader | - 基于notebook的多步骤探索记录和整合 - 使用LLM进行answer reasoning生成最终答案 - Chain-of-Thought方式分析各个探索路径获得的信息 | - key elements和atomic facts构成的结构化图表示 - 通过自然语言形式描述节点内容和关系 - 使用notebook记录探索过程中的发现 | - 渐进式信息收集和推理 - 结合了图探索和LLM推理的混合架构 - 通过notebook机制实现记忆和推理的分离 - 支持coarse-to-fine的信息获取策略 |
GEAR | - 基于 SyncGE 检索结果进行多步生成 - 通过 Gist Memory 实现知识累积式生成 - 使用 RRF 融合多源信息生成最终答案 - LLM 用于 reasoning 和 answer generation | - 采用三元组形式 (subject, predicate, object) 表示基础知识 - 通过 proximal triples 构建结构化知识表示 - 支持自然语言形式的知识转换 - 使用 passageLink 和 tripleLink 建立多模态知识连接 | - 同步知识生成架构 - 轻量化模型应用 - 记忆增强生成 - 多样性保证 - 知识对齐机制 |
OG-RAG | - 基于本体的超图表示 - 使用LLM进行上下文感知生成 - 通过贪心算法优化的最小超边集生成上下文 | - 使用超图(Hypergraph)结构表示知识 - 基于主题(Subject)、属性(Attribute)、值(Value)的三元组形式 - 将本体映射转换为自然语言描述 | - 本体驱动的结构化生成 - 超图知识表示的创新 - 高效的贪心优化策略 - 支持复杂关系的完整保持 - 准确的事实归因能力 |
HybgRAG | - 多模态融合生成:结合文本、图结构和向量表示 - 自适应生成策略:根据任务动态调整生成方式 - 迭代优化生成:通过多轮反馈改进输出质量 - 交互式生成:支持用户反馈的动态调整 | - 混合图语言表示: 1. 结构化三元组 2. 自然语言描述 3. 代码形式表示 - 动态语言转换:根据任务需求切换表示方式 - 多级别抽象:支持不同粒度的知识表达 | - 自适应多模态生成架构 - 动态知识表示转换 - 交互式优化机制 - 高度可定制性 - 强大的知识整合能力 |
KG4Diagnosis | - GP-LLM初步诊断生成 - 专科LLM深度诊断生成 - 基于置信度的多智能体协同生成 - 数学建模的概率融合生成 | - BioBERT抽取的医学实体和关系表示 - 结构化的疾病-症状图谱 - 自然语言形式的医学诊断描述 - 分层的专科知识组织结构 | - 分层多智能体生成架构: 1. GP初筛 2. 专科深入诊断 3. 协同会诊机制 - 知识增强特性: 1. 专家验证 2. 医学术语规范化 3. 诊断路径可追溯 - 诊断质量保证: 1. 置信度阈值控制 2. 多专科交叉验证 3. 专家知识整合 |
KARE | - 使用LLM生成社区摘要和推理链 - 多任务学习框架结合推理链生成和标签预测 - 基于confidence score的推理链评估和筛选 - 动态知识增强的生成过程 | - 基于社区的层次化知识表示 - 使用自然语言描述社区内容 - 主题相关和通用双重摘要格式 - 结构化的推理链表示 | - 推理链增强生成 - 社区知识整合 - 多任务学习框架 - 动态知识增强 - 医疗领域适配 |
KG-LLM | - Chain-of-Thought生成: 1. 将KG路径转为推理链 2. 使用CoT方式生成解释 3. 基于Cross-Entropy Loss评估 - 指令微调生成: 1. 基于预设指令模板 2. 通过ICL引导生成 3. 支持link prediction任务 | - 自然语言表示: 1. 节点ID转自然语言描述 2. 关系ID转自然语言描述 3. 路径转推理链描述 - 结构化特点: 1. 保持2-6跳路径完整性 2. 维护节点-关系映射 3. 支持多跳推理表达 | - 生成创新点: 1. 结构化到自然语言的转换 2. Chain-of-Thought推理增强 3. ICL引导的生成优化 - 图语言优势: 1. 简单直观的转换机制 2. 保持图结构完整性 3. 便于LLM理解和处理 - 技术特色: 1. 端到端的生成流程 2. 多跳路径推理支持 3. 指令微调的任务适配 |
DR.KNOWS | - 层次化症状生成: 1. 基于症状相似度聚类 2. 症状组层次化组织 3. 置信度驱动的筛选 - 诊断推理生成: 1. 基于症状组的匹配 2. 多层次诊断推理 3. 专家知识验证 - 治疗方案生成: 1. 基于诊断的方案推荐 2. 多专科协同决策 3. 动态更新优化 | - 结构化表示: 1. 症状-疾病图谱 2. 疾病关联网络 3. 治疗方案知识库 - 自然语言转换: 1. 症状描述标准化 2. 诊断结果自然化 3. 专业术语解释 - 层次化组织: 1. 症状层次结构 2. 疾病分类体系 3. 专科知识划分 | - 生成架构特点: 1. 层次化症状组织 2. 多专科协同诊断 3. 动态更新机制 - 图语言优势: 1. 标准化的知识表示 2. 灵活的转换机制 3. 专业知识整合 - 技术创新: 1. 基于置信度的动态生成 2. 专家知识引导 3. 多维度质量保证 |
Graph-Based Retriever | - 使用PubmedBERT进行知识抽取和生成 - 基于Pareto前沿的多目标生成优化 - 支持长尾知识的平衡生成 - 使用KAZU框架进行实体标准化生成 | - 三元组形式表示生物医学知识 - 支持6种关系类型:关联、正相关、负相关、共治疗、比较和结合 - 结构化到自然语言的转换 - 利用实体标准化保持一致性 | - 生成特色: 1. 生物医学领域专业生成 2. 多目标平衡优化 3. 长尾知识获取 - 图语言优势: 1. 专业实体标准化 2. 多类型关系表示 3. 结构化知识转换 - 技术创新: 1. Pareto优化生成 2. 降采样平衡机制 3. 专业知识整合 |
KG-RAG | - LLM为主生成器 - MedCPT医学增强 - 多阶段排序优化 - UMLS知识指导 | - 三元组转医学描述 - 专业术语模板化 - 语义准确转换 | - 医学专业增强: · UMLS支持 · MedCPT优化 · 术语准确性 - 多阶段生成: · 排序优化 · 答案扩展 · 去重平衡 - 质量控制: · 交叉编码 · 动态权重 · 多样性保证 |
DoG | - 多角色LLM协同生成 - 渐进式推理生成 - 基于三元组的验证生成 - 辩论驱动的优化生成 | - 三元组序列化表示 - 自然语言问题转换 - 辩论式语言描述 - 子图结构化表达 | - 多角色协同增强: · 专家引导 · 评论家优化 · 语言学家改进 - 渐进式生成框架: · 子图聚焦 · 问题简化 · 答案验证 - 高度可控性: · 辩论机制 · 推理透明 · 灵活扩展 |
GNN-RAG | - GNN密集子图推理生成初始答案候选 - 最短路径知识抽取关键知识路径 - LLM RAG增强生成 - 概率阈值(0.95)过滤生成 | - GNN图结构表示学习 - 将路径信息转换为自然语言描述 - 基于prompt的RAG格式化 - Dense Subgraph保持图结构完整性 | - 双重生成增强: · GNN结构理解 · LLM语言理解 · 融合路径级知识增强推理 - 高效检索框架: · 密集子图机制 · 最短路径提取 · 概率阈值控制 - 可扩展性强: · 支持多种LLM · 灵活的模型适配 · 端到端训练 |
KI-DDI | - GAT网络生成症状-疾病关联表示 - 注意力机制加权融合对话与知识 - 基于加权平均的疾病预测 - 交叉熵损失函数优化生成质量 | - 基于sf-idf的S-S-D知识图谱构建 - 症状-症状-疾病三层图结构 - 动态子图过滤保持结构完整性 - GAT的图结构表示学习 | - 医疗特化生成: · 症状学知识融合 · 诊断经验建模 · 自适应症状探索 - 双通道架构: · 对话理解 · 知识图谱推理 · 注意力融合 - 可解释性强: · 结构化推理路径 · 透明的诊断决策 · 完整的症状链路 |
Think-on-Graph | - LLM作为生成智能体 - 基于检索路径的推理生成 - 动态评估与验证机制 - 自适应知识融合生成 | - 三元组转自然语言描述 - 结构化的路径表示 - 实体-关系-实体序列化 - 层次化的路径组织 | - LLM驱动的智能生成: · 动态路径推理 · 知识整合生成 · 自适应深度控制 - 高度灵活性: · 多粒度融合 · 可插拔架构 · 适配不同LLM - 可追溯性强: · 清晰推理路径 · 知识可修正 · 透明决策过程 |
Tree-of-Traversals | - LLM作为主要生成器 - ASM引导的结构化生成 - 基于value function的评估 - 支持多知识源协同生成 | - YAML格式的token高效表示 - 节点-关系结构化描述 - 局部KG的树状表示 - 最小化重复的嵌套结构 | - 结构化生成框架: · ASM引导生成 · 树状决策流程 · 可控生成深度 - 高效性能: · Token优化表示 · 并行路径探索 · 智能回溯机制 - 可解释性: · 清晰的状态转换 · 透明的决策过程 · 可追踪的推理链 |
PBXAI | - RL框架驱动生成 - Actor-Critic架构管理 - Policy-based路径生成 - Reward优化生成质量 | - 节点序列表示路径 - 邻接表存储图结构 - Path/Probability集合记录 - 状态向量编码结构 | - 结构化生成框架: · RL驱动生成 · 动态路径探索 · 可控生成深度 - 高效性能: · 状态空间优化 · 并行路径生成 · 熵正则化机制 - 可解释性: · 清晰的疾病进展路径 · 透明的预测过程 · 可追踪的医学推理 |
TECHGPT-2.0 | - 基于LLM的生成式架构 - QLoRA参数高效微调 - 分步骤生成(NER+RTE) - 结合指令微调优化生成质量 | - 自然语言形式表示 - 三元组结构化表示 - 领域特定模板转换 - 支持长文本处理的序列化表示 | - 多领域知识图谱构建 - 高效的参数优化 - 长文本处理能力 - 中文开源支持 |
AliCG | - 基于概念注意力的双塔生成模型 - 概念预训练增强生成 - 结合用户行为的动态生成 - 多层概念引导的生成策略 | - 概念-实例的层次化表示 - 基于用户行为的序列化表示 - 自然语言模板转换 - 四层概念图的结构化表示 | - 概念驱动的生成策略 - 用户行为感知机制 - 动态演化能力 - 长尾概念处理 - 分布式生成架构 |
ChatKBQA | - 使用fine-tuned LLM生成logical form - 基于SPARQL的查询执行生成 - beam search多路径生成 - 概率阈值控制的筛选生成 | - logical form的结构化表示 - SPARQL查询语言 - 实体-关系的线性化表示 - 基于概率的路径序列化 | - 生成驱动的检索范式 - 结构化查询生成 - 多模型协同机制 - 可解释性强 - 灵活的插件化架构 |
HyKGE | - 采用假设生成-验证-增强的三阶段生成机制 - 使用LLM生成假设输出 - 通过知识图谱验证和修正假设 - 基于检索链增强生成最终答案 | - 推理链形式表示 - 自然语言模板化转换 - 融合头尾节点描述 | - 假设驱动生成 - 双重验证机制 - 知识链路融合 - 片段粒度的知识对齐 |
GNP | - 使用GNN编码器处理图结构 - 跨模态表示对齐 - 领域投影转换 | - 基于路径的推理链表示,保留图结构信息 - 节点-边序列化 - 结构感知编码 | - 结构化表示学习 - 跨模态表示融合 - 自监督链接预测 - 端到端生成优化 |
三、主要创新与应用场景
论文名称 | 主要创新 | 技术优势 | 适用场景 |
---|---|---|---|
KAG | - LLMFriSPG框架 - 逻辑形式推理 - 知识语义对齐 - 混合增强生成 | - 强大推理能力 - 高知识准确性 - 可解释性强 - 领域适应性好 | - 专业领域问答 - 政务服务 - 医疗咨询 - 复杂推理任务 |
GraphRAG | - 图形社区检测索引架构 - 层次化社区摘要生成 - 多阶段Map-Reduce机制 - 基于LLM的图索引构建 | - 高效处理大规模文本 - 优秀的全局理解能力 - 可扩展的社区结构 - 低成本的根级检索 | - 全局语料理解 - 大规模文本摘要 - 数据探索分析 - 语义感知检索 |
MedGraphRAG | - Triple Graph Construction三层图结构 - U-Retrieval检索策略 - 层次化医学标签系统 - 循证医学响应生成机制 | - 高可靠的医学响应 - 完整的来源追溯 - 医学术语精确解释 - 高效的分层检索 | - 医学问答系统 - 医疗文献检索 - 临床决策支持 - 医学教育培训 |
LightRAG | - 双层检索范式,低层和高层知识发现 - 将图结构整合到文本索引 - 增量更新算法 - 轻量级设计 | - 检索效率高 - 内存占用低 - 增量更新快 - 维护成本低 | - 大规模知识库 - 动态更新场景 - 实时响应系统 - 资源受限环境 |
MindMap | - 双路径采集结构 - 证据增强架构 - 思维导图生成 - 可视化推理链路 | - 知识获取全面 - 推理过程透明 - 证据链可追溯 - 可解释性强 | - 医疗诊断问答 - 症状分析 - 治疗方案推荐 - 医学知识咨询 |
KI-DDI | - 双通道知识注入架构 - 话语感知疾病诊断 - 同情心医疗对话语料库 - 图注意力症状-疾病知识图谱 | - 结合临床知识和对话理解 - 诊断准确率高 - 推理过程可解释 - 人性化交互体验 | - 自动疾病诊断 - 医生辅助问诊 - 远程医疗咨询 - 初步症状筛查 |
medIKAL | - 基于实体类型的加权重要性机制 - 残差网络式的LLM与KG融合方法 - 基于路径的重排序算法 - 填空式提示模板 | - 精确定位候选疾病 - 有效结合LLM内部知识和KG知识 - 推理过程可解释 - 减少幻觉 - 模块化设计,灵活可扩展 | - EMR电子病历诊断 - 复杂医疗记录分析 - 临床辅助诊断 - 医疗知识问答 |
GraphReader | - 基于图的长文本处理架构 - 渐进式探索策略 - Notebook记忆机制 - rational plan引导的多跳推理 | - 出色的长文本处理能力 - 强大的多跳推理能力 - 高效的内存使用(仅需4k上下文) - 可扩展性好(支持16k-256k文本) - 推理过程可追踪 | - 长文档问答 - 多跳推理任务 - 复杂问题分析 - 跨文档信息整合 |
GEAR | - SyncGE同步图扩展框架 - Diverse Triple Beam Search - Gist Memory知识累积机制 - 轻量级语义模型替代 - 多步检索生成策略 | - 高效的知识检索与集成 - 强大的多跳推理能力 - 低计算成本 - 知识一致性保证 - 支持迭代式学习 - 多样性结果保证 | - 多跳问答任务 - 复杂推理场景 - 知识密集型应用 - 需要迭代理解的任务 - 实时响应要求高的场景 |
OG-RAG | - 本体驱动的超图检索框架 - 基于贪心算法的超边集合优化 - 混合相似度的匹配机制 - 结构化的知识表示方法 - 本体规范的知识增强 | - 显著提升检索准确性(事实召回率+55%) - 高效的知识归因(速度+30%) - 出色的推理能力(准确率+27%) - 良好的领域适应性 - 强大的关系保持能力 - 完整的知识表示能力 | - 工业流程管理 - 专业知识咨询 - 复杂关系推理 - 需要严格知识规范的场景 - 跨领域知识应用 - 结构化知识检索 |
HybgRAG | - 多模态混合检索架构 - 自适应权重分配机制 - 动态知识融合策略 - 交互式优化框架 - 多层次生成控制 | - 强大的适应性能力 - 高效的知识整合 - 灵活的配置选项 - 出色的扩展性能 - 稳定的生成质量 - 可靠的推理能力 | - 复杂问答系统 - 知识密集型应用 - 动态信息服务 - 交互式咨询 - 多领域知识整合 - 实时响应场景 |
KG4Diagnosis | - 分层多智能体架构: 1. GP智能体初筛 2. 专科智能体深入诊断 3. 协同诊断机制 - 三阶段知识图谱构建: 1. 语义驱动的实体抽取 2. 多维度决策关系重建 3. 人类引导的知识扩展 - 362种常见疾病的全面覆盖 | - 专业知识整合能力: 1. BioBERT医学实体识别 2. LLM语义理解增强 3. 专家验证保障 - 诊断精确性: 1. 置信度阈值控制 2. 多专科交叉验证 3. 分层诊断策略 - 知识扩展性: 1. 支持动态更新 2. 模块化设计 3. 人类反馈优化 | - 医疗诊断咨询: 1. GP初步筛查 2. 专科深入诊断 3. 远程医疗服务 - 临床决策支持: 1. 辅助医生诊断 2. 治疗方案推荐 3. 病情分析 - 医学教育培训: 1. 案例学习 2. 诊断思维训练 3. 知识库构建 |
KARE | - 知识感知推理增强框架: 1. 多源医学知识图谱构建 2. KG社区级检索 3. 动态知识检索机制(DGRA) - 推理增强预测架构: 1. 多维度评分机制 2. LLM推理链生成 3. 多任务学习框架 | - 知识整合能力: 1. 多源知识有效融合 2. 动态知识更新 3. 层次化知识组织 - 推理能力: 1. 结构化推理链 2. 可解释性强 3. 准确度高 - 适应性: 1. 支持增量更新 2. 灵活的评分机制 3. 多任务协同优化 | - 医疗预测: 1. 死亡风险预测 2. 再入院风险评估 3. 疾病进展预测 - 临床决策支持: 1. 治疗方案推荐 2. 风险预警 3. 预后分析 - 医学研究: 1. 病例分析 2. 临床试验 3. 医学数据挖掘 |
KG-LLM | - 知识图谱转换框架: 1. 结构化数据转自然语言 2. Chain-of-Thought推理机制 3. ICL增强的生成优化 - 双阶段处理架构: 1. 图路径预处理 2. 指令微调优化 - 多跳链接预测: 1. DFS路径提取 2. 2-6跳路径限制 3. 样本平衡策略 | - 知识理解能力: 1. 自然语言理解增强 2. 结构化推理支持 3. ICL泛化能力提升 - 实现效率: 1. 简单高效的转换机制 2. 轻量级的处理流程 3. 易于扩展和维护 - 预测准确性: 1. 多跳推理支持 2. 路径完整性保证 3. CoT推理增强 | - 知识图谱应用: 1. 多跳链接预测 2. 关系路径推理 3. 图结构分析 - 自然语言处理: 1. 结构化知识转换 2. 知识推理问答 3. 路径解释生成 - 通用场景: 1. 知识库构建 2. 知识图谱补全 3. 关系推理任务 |
DR.KNOWS | - 层次化诊断架构: 1. 症状层次聚类 2. 多专科协同诊断 3. 置信度驱动的诊断流程 - 知识增强机制: 1. 专家知识验证 2. 动态知识更新 3. 多维度质量控制 - 诊断推理优化: 1. 基于症状组的匹配 2. 多层次诊断决策 3. 专科知识整合 | - 诊断准确性: 1. 症状组织的精确匹配 2. 多专科交叉验证 3. 置信度阈值控制 - 知识整合能力: 1. 专家知识引导 2. 动态更新机制 3. 多维度验证 - 实用性能: 1. 模块化设计 2. 可扩展架构 3. 高效处理能力 | - 临床诊断: 1. 初步症状筛查 2. 专科诊断推荐 3. 辅助诊断决策 - 远程医疗: 1. 在线问诊 2. 远程会诊 3. 健康咨询 - 医学教育: 1. 诊断训练 2. 案例学习 3. 知识库构建 |
Graph-Based Retriever | - 新型图检索框架: 1. 基于知识图谱的降采样机制 2. Pareto多目标优化 3. KAZU实体标准化 - 生物医学知识整合: 1. PubmedBERT关系抽取 2. 支持6种关系类型 3. 长尾知识获取策略 - 混合检索架构: 1. 图结构索引 2. 向量相似度检索 3. 多目标平衡机制 | - 检索效率: 1. 降采样平衡提升2倍检索性能 2. 有效处理信息过载问题 3. 高效的长尾知识获取 - 知识质量: 1. 专业实体标准化 2. 精确的关系抽取 3. 多维度知识表示 - 系统性能: 1. 可扩展的混合架构 2. 动态平衡机制 3. 支持增量更新 | - 生物医学领域: 1. 专业文献检索 2. 实体关系分析 3. 长尾知识发现 - 信息检索: 1. 大规模文献处理 2. 复杂关系挖掘 3. 知识图谱构建 - 研究应用: 1. 药物研发 2. 疾病研究 3. 医学知识发现 |
KG-RAG | - 创新的检索框架: 1. 三层排序机制(相似度、扩展、MMR) 2. MedCPT医学重排序 3. 动态权重调整 - 医学专业优化: 1. UMLS知识图谱集成 2. 医学实体识别和匹配 3. 专业知识转换 - 多阶段知识增强: 1. Answer Expansion扩展 2. 多样性平衡机制 3. 交叉编码优化 | - 检索质量: 1. 高准确的医学知识匹配 2. 多样性与相关性平衡 3. 冗余信息去除 - 生成能力: 1. 专业医学内容生成 2. 自然语言转换优化 3. 知识整合增强 - 系统性能: 1. 端到端集成架构 2. 灵活的动态调整 3. 可扩展的模块设计 | - 医疗问答: 1. 专业医疗咨询 2. 临床决策支持 3. 医学知识查询 - 专业应用: 1. 医疗文献分析 2. 病历信息处理 3. 医学教育培训 - 研究支持: 1. 医学研究分析 2. 知识图谱构建 3. 证据链生成 |
DoG | - 多角色辩论机制: 1. 专家-评论家-语言学家协作 2. 渐进式问题简化 3. 多角色验证优化 - 子图聚焦策略: 1. 基于三元组的验证机制 2. 渐进式子图构建 3. 动态路径探索 - 灵活检索框架: 1. 迭代式推理优化 2. 多粒度检索策略 3. 可控的推理过程 | - 推理质量: 1. 高可靠的答案生成 2. 清晰的推理路径 3. 强大的可解释性 - 扩展能力: 1. 多LLM模型兼容 2. 灵活的任务适配 3. 动态知识整合 - 系统效率: 1. 渐进式优化架构 2. 可控的复杂度 3. 高度模块化设计 | - 复杂推理: 1. 多跳问答任务 2. 逻辑推理分析 3. 知识链路探索 - 通用应用: 1. 开放域问答 2. 知识图谱问答 3. 事实验证任务 - 交互场景: 1. 对话式问答 2. 知识探索 3. 教育辅导 |
GNN-RAG | - GNN-LLM协同机制: 1. GNN处理图结构信息 2. LLM处理自然语言理解 3. 无缝知识融合 - Dense Subgraph策略确保了检索的完整性和效率: 1. 密集子图推理 2. 最短路径提取 3. 概率阈值过滤 - 检索增强框架全面的知识获取和推理能力: 1. SBERT/LMSR双重编码 2. RAG prompt优化 3. 多阶段推理生成 | - 检索效率: 1. 高效的图检索 2. 准确的路径抽取 3. 优化的内存使用 - 模型能力: 1. 支持复杂多跳推理 2. 强大的知识整合 3. 端到端可训练 - 实用性: 1. 轻量级模型集成 2. 灵活的扩展性 3. 低资源需求 | - 知识问答: 1. 多跳推理任务 2. 复杂关系查询 3. 事实验证问答 - 专业应用: 1. 医疗诊断辅助 2. 科研文献分析 3. 法律案例咨询 - 通用场景: 1. 开放域问答 2. 知识图谱检索 3. 推理链生成 |
KI-DDI | - 双通道知识融合架构: 1. 对话理解通道 2. 医疗知识图谱通道 3. 注意力机制融合 - S-S-D知识图谱结构: 1. 症状-症状关联 2. 症状-疾病映射 3. sf-idf边权重计算 - 智能诊断推理框架: 1. GAT网络推理 2. 自适应症状探索 3. 结构化决策生成 | - 诊断效果: 1. 高准确率(64.10%) 2. 完整的症状链路 3. 可解释的决策 - 技术特点: 1. 医疗知识融合 2. 动态症状探索 3. 端到端训练 - 实用性: 1. 轻量级架构设计 2. 易于部署和维护 3. 资源消耗适中 | - 医疗诊断: 1. 在线问诊 2. 初步疾病筛查 3. 辅助诊断决策 - 专业应用: 1. 医疗教育培训 2. 临床决策支持 3. 医疗知识管理 - 拓展场景: 1. 患者自诊指导 2. 医疗咨询服务 3. 健康管理系统 |
Think-on-Graph | - LLM ⊗ KG范式创新: 1. LLM作为智能代理 2. 交互式图探索 3. 动态知识融合 - Think-on-Graph算法框架: 1. Beam search探索 2. 路径动态评估 3. 自适应深度控制 - 知识追溯与修正机制: 1. 透明推理路径 2. 错误定位与纠正 3. 知识动态更新 | - 推理效果: 1. 多数据集SOTA 2. 可解释推理链 3. 知识可追溯 - 技术特点: 1. 无需额外训练 2. 即插即用设计 3. 灵活可扩展 - 实用性: 1. 通用架构设计 2. 易于集成部署 3. 支持知识更新 | - 通用问答: 1. 复杂推理问答 2. 知识图谱查询 3. 事实验证 - 专业应用: 1. 知识推理系统 2. 决策支持系统 3. 智能问答系统 - 拓展场景: 1. 知识库构建 2. 信息抽取 3. 知识推理 |
Tree-of-Traversals | - 零样本推理框架: 1. Tree-of-Traversals算法 2. ASM状态转换机制 3. value驱动的搜索 - 结构化探索设计: 1. 树状搜索结构 2. 多路径并行探索 3. 智能回溯机制 - 多知识源协同: 1. 多KG接口集成 2. 统一的操作框架 3. 灵活的扩展性 | - 推理性能: 1. 多基准SOTA 2. 可控的推理深度 3. 高效的token表示 - 系统特点: 1. 零样本学习 2. 黑盒LLM支持 3. 模块化设计 - 实用特性: 1. 可解释性强 2. 部署维护简单 3. 易于扩展更新 | - 知识问答: 1. 多跳推理问答 2. 跨域知识融合 3. 事实验证查询 - 企业应用: 1. 内部知识库问答 2. 专业领域推理 3. API集成系统 - 创新场景: 1. 个性化知识库 2. 多源知识整合 3. 动态知识更新 |
PBXAI | - 知识驱动架构: 1. 医学KG与RL结合 2. Actor-Critic策略框架 3. 路径推理机制 - 解释性设计: 1. 疾病进展路径生成 2. 多粒度检索机制 3. 动态状态评估 - 医学数据融合: 1. 患者特征学习 2. 医学知识整合 3. 个性化预测支持 | - 预测性能: 1. 与ML基线相当 2. 更好的top-k准确率 3. 可控的预测深度 - 系统特点: 1. 可解释预测 2. 动态路径生成 3. 模块化架构 - 实用特性: 1. 医学知识驱动 2. 个性化诊断支持 3. 易于临床整合 | - 疾病预测: 1. 循环系统疾病预测 2. 患者风险评估 3. 疾病进展分析 - 临床应用: 1. 辅助诊断决策 2. 患者预后评估 3. 治疗方案规划 - 研究场景: 1. 医学知识挖掘 2. 临床路径分析 3. 医疗数据研究 |
TECHGPT-2.0 | - QLoRA高效微调 - 双任务协同(NER+RTE) - Position interpolation长文本处理 - 多领域知识图谱构建框架 | - 参数优化高效 - 中文处理优秀 - 长文本支持 - 多领域适配 - 开源生态完整 | - 知识图谱构建 - 医疗法律知识抽取 - 长文档处理 - 中文开源社区 - 专业领域知识构建 |
AliCG | - 四层概念图架构 - bootstrapping with alignment consensus - 长尾概念挖掘方法 - 基于用户行为的动态演化机制 | - 细粒度概念表示 - 高覆盖率概念抽取 - 动态更新能力 - 可扩展性强 | - 搜索引擎优化 - 电商推荐 - 意图识别 - 实体识别 - 查询语句重写与优化 |
ChatKBQA | - 提出全新的"generate-then-retrieve"框架,颠覆传统检索-生成范式 - 使用fine-tuned LLM生成logical form,提高语义解析准确性 - 设计无监督检索和概率阈值控制机制,优化检索质量 - 采用可插拔模块化架构,支持灵活组件替换 | - 生成的logical form质量高,准确把握问题语义 - 检索效率显著提升,减少无效搜索 - 基于逻辑形式的结果可解释性强 - 模块化设计使系统易于扩展 - 对不同类型问题有良好适应性 | - 复杂的知识图谱问答任务 - 需要高准确性的事实查询 - 要求多跳推理的问答场景 - 结构化知识的精确检索 - 需要问题分解的复杂查询 |
HyKGE | - 假设输出引导检索 - 分段粒度重排序 - 三类推理链结构 - 自适应知识融合 | - 知识准确性高 - 结果可解释性强 - 检索结果多样化 - 动态平衡能力好 | - 医疗问答咨询 - 临床诊断支持 - 医学知识问答 - 专业建议生成 |
GNP | - GNN结构感知编码 - 跨模态表示学习 - 领域投影对齐 - 自监督预训练 | - 保持图结构信息 - 文本和图表示的精确对齐 - 迁移学习能力强 - 训练过程高效,不需要大量标注数据 | - 医疗知识问答 - 生物医学推理 - 常识推理任务 - 科学文献分析 |
知识图谱增强 RAG 算法优化提示词
Claude 3.5 sonnet 版
# 知识图谱RAG系统分析框架
请按照以下框架分析您的知识图谱RAG算法实现,以识别优化机会并充分发挥其潜力。
## 分析结构
### 1. 图数据库策略分析
请描述您当前的知识图谱RAG实现方案:
#### 1.1 数据建模方式
- 您采用哪种建模方法?(文档建模、垂直领域建模、关系标签建模)
- 知识图谱中的主要实体和关系有哪些?
- 如何确保数据质量和进行数据验证?
#### 1.2 召回方式
- 目前使用的是什么召回方式?(Text2GQL/GNN、子图RAG、探索链)
- 如何处理需要多跳推理的复杂查询?
- 当前召回过程中存在哪些限制?
#### 1.3 索引编排
- 当前如何组织索引?(向量重排、路由方式等)
- 针对大规模图数据的处理策略是什么?
- 如何维护索引的时效性和准确性?
### 2. 索引策略分析
请描述您的索引实现方案:
#### 2.1 索引类型
- 使用了哪些类型的索引?(图索引、向量文本索引、混合索引)
- 如何进行图数据转换以适配索引?
- 当前的索引性能指标如何?
#### 2.2 图数据处理
- 如何处理图数据使其与LLM兼容?
- 使用什么方法进行图到文本的转换?
- 如何在索引过程中保存图结构信息?
### 3. 检索查询策略分析
请描述您的查询实现方案:
#### 3.1 检索器选择
- 使用了哪些检索器?(非参数检索器、语言模型检索器、图神经网络检索器)
- 如何为不同类型的查询选择合适的检索器?
- 当前检索准确率指标如何?
#### 3.2 检索方案
- 采用什么检索方案?(单次检索、多步检索、多阶段检索)
- 如何处理需要迭代检索的复杂查询?
- 当前检索延迟指标如何?
#### 3.3 检索颗粒度
- 使用什么检索颗粒度?(节点、三元组、路径、子图)
- 如何为不同查询确定合适的检索颗粒度?
- 当前检索覆盖率指标如何?
#### 3.4 检索增强策略
- 如何提升检索质量?
- 使用了哪些查询扩展技术?
- 如何进行查询分解?
### 4. 生成增强分析
请描述您的生成实现方案:
#### 4.1 图格式处理
- 如何格式化图数据以用于生成?
- 使用什么方法在生成过程中保留图结构?
- 如何处理生成阶段的图到文本转换?
## 优化建议
基于您的回答,我将从以下方面提供具体建议:
1. 即时优化:
- 可快速实施的优化点
- 性能瓶颈解决方案
- 数据质量提升建议
2. 策略提升:
- 架构改进建议
- 高级特性实现方案
- 扩展性考虑
3. 未来规划:
- 长期优化策略
- 技术选型建议
- 研究方向推荐
## 使用说明:
1. 请针对上述各个部分提供详细回答
2. 尽可能提供具体的指标数据
3. 重点说明已知的限制和挑战
4. 分享特殊需求或约束条件
您的回答将用于生成定制化的建议,以帮助突破知识图谱RAG系统的当前上限。
o1 Pro 版
以下是一组在 **知识图谱 RAG** 项目中,涵盖从**图数据库选型**到**索引、检索与生成**等关键环节的**提示词**。可在不同阶段引导大模型或开发者做更精准的策略决策和实施,帮助充分发挥 KG-RAG 的优势。
---
## 一、图数据库选型阶段
1. **建模方式决策**
- 「我们需要整合的文档类型有哪些?是否含有异构文件、表格或已有领域本体?能否按文档建模、垂直领域建模或关系标签建模?」
- 「若采用按文档建模,需要如何处理跨文档的实体对齐和关系抽取?是否需要人工校准与审核流程?」
- 「是否存在现成的专业领域知识图谱(如医学、金融、法律)可直接利用?怎样与内部数据进行实体对齐?」
2. **图数据库架构**
- 「对于我们的查询需求,哪种图数据库更合适?是 Neo4j、JanusGraph、TigerGraph,还是轻量级方案?」
- 「我们计划支持多少节点和关系,是否要考虑分布式存储和高可用性?」
- 「如何确保数据质量与一致性?是否需要设计数据治理和数据校准流程?」
3. **开发框架 vs. 自主搭建**
- 「是直接用 llamaindex 等打包好的 KG-RAG 低代码框架,还是自己从头实现以追求更高上限?」
- 「若选择低代码框架,在哪些方面可能遇到扩展性限制?」
---
## 二、索引阶段
4. **索引策略选择**
- 「在我们的知识图谱中,保留多少结构信息?是完整图索引、文本向量索引,还是混合索引?哪种更能满足检索效率和上下游需求?」
- 「是否需要将实体、关系、文本块统一向量化,并做多级索引,以支持高效的检索和推理?」
5. **图索引实现细节**
- 「对于节点与边,采用何种消息传递或邻接存储结构?需不需要预计算 PageRank 或其他中心度指标?」
- 「哪些实体/关系是核心,需要重点索引或打标?」
6. **文本向量化配置**
- 「选用哪种预训练模型(BERT、GPT、SentenceTransformer 等)进行文本块向量化?如何微调以适应领域?」
- 「是否需要对特定关键词或实体做特征加权,提高某些节点/文本在检索时的优先级?」
---
## 三、检索查询阶段
### 3.1 检索器与方案
7. **检索器类型**
- 「对当前任务而言,使用非参数检索器(如 BFS、DFS、A*)是否足够?还是需要结合 LLM 或 GNN 来做深层次的图搜索?」
- 「是否需要判别式 vs. 生成式语言模型的检索器?检索时需要动态扩展 query 还是直接生成候选关系集?」
8. **检索模式(单次 / 多步 / 多阶段)**
- 「我们是否需要多阶段检索?先查到相关实体,再扩展子图?还是采用单次检索以追求速度?」
- 「是否允许适应性检索,让模型自行决定何时终止搜索?需要设定最大迭代次数或置信度阈值吗?」
### 3.2 检索颗粒度
9. **节点 / 三元组 / 路径 / 子图**
- 「以什么粒度从 KG 中取数据最合适?是单节点、三元组,还是整个子图?」
- 「如果采用子图检索,如何控制子图规模,避免过多噪音或漏掉重要关系?」
10. **混合检索策略**
- 「是否有必要在一次搜索中同时获取节点、三元组和路径的多种粒度信息?如何合并这些信息到统一的上下文中?」
- 「在检索时,需要对不同粒度的内容做优先级排序吗?」
### 3.3 检索增强
11. **查询扩展**
- 「是否需要挖掘实体别名、同义词、相关术语来丰富查询?如何借助 SPARQL 或已有本体获取别名?」
- 「针对长尾问题或简短 query,是否要引入大模型做自然语言补充或问题扩写?」
12. **查询分解**
- 「对于复杂查询,是否要拆解成多个子查询(症状查询 / 病史查询 / 药物查询等)再合并?」
- 「在多子查询场景下,如何保证上下文不丢失、结果能正确融合?」
13. **知识合并 / 修剪**
- 「检索到的子图或路径需要做修剪吗?使用怎样的规则?是否可以让 LLM 做一遍摘要或多跳推理后再保留关键节点?」
- 「合并多个子图 / 路径时,如何去重并增强可解释性?」
---
## 四、图增强生成阶段
### 4.1 生成器选择
14. **GNN 还是 LLM?**
- 「是否直接用 GNN 做图数据的编码和生成?还是把图翻译成文字,输入到大语言模型?」
- 「若使用 LLM 生成,需要如何对图做序列化或自然语言描述?」
15. **图翻译格式**
- 「输出到 LLM 的图数据采用何种格式?邻接表、代码形式、语法树、节点序列,还是自然语言模板?」
- 「如何在有限的上下文长度内呈现尽可能完整的图结构,避免信息丢失?」
### 4.2 生成增强
16. **多路径合并**
- 「如果检索到多个可行的路径或子图,如何让模型在生成阶段合并并对比不同路径?是否需要置信度打分?」
- 「是否要让 LLM 给出思考过程 (Chain-of-Thought) 解释其合并逻辑?」
17. **可解释性与可视化**
- 「需要将最终结构以思维导图或可视化图谱方式呈现吗?如何在文字回答中嵌入关键实体、关系链接?」
- 「若进行可视化,如何在前端渲染图数据并与 LLM 生成的自然语言回答相对应?」
18. **人类反馈或符号规则验证**
- 「对于医学、金融等高风险场景,是否在生成之后需要引入专家系统或符号规则做二次校验?」
- 「如何记录并学习人类反馈,持续修正对特定关系或结论的错误?」
---
## 五、通用提示词模板示例
- **系统提示 (System Prompt)**
「你是一个知识图谱 RAG 系统的核心调度器,请基于我的查询,以及后台的图索引和向量索引,选择合适的检索方案(单次/多步/子图/路径),并返回对问题最具解释力的结果。若数据量过大请适当裁剪,但必须保留核心关系和节点。」
- **用户询问 (User Prompt)**
「给定 [具体问题],请从我们的知识图谱中搜索相关实体、关系、路径或子图,并将它们整合成对我的提问最具价值的回答。若检索到多条可能路径,请列出要点并尽量在回答中注明关联关系。」
- **开发者调试 (Developer Prompt)**
「请分析本次检索的子图结构,看看是否存在冗余或缺失的重要关系?若检索时间或结果不符合预期,可考虑多步检索或查询扩展。请基于 [系统日志/搜索记录] 给出优化方案。」
---
### 总结
借助上述**提示词**,你可以在每个环节都更精准地与大模型或协作开发者沟通,为**知识图谱 RAG** 项目做出更灵活、更深层次的策略调整。从**图数据库选型**、**索引设计**、**检索查询**到**图增强生成**,都能自定义话语引导,最大化挖掘 KG-RAG 在结构化、全局关联以及可解释性上的独特优势。
1. 对比总览表
下表以 “检索架构/索引/检索策略/生成方式/核心创新/适用场景” 为主线,将前文中的所有算法放在一起进行鸟瞰式的横向对比。
算法名称 | 检索架构 | 索引方式 | 检索策略 | 生成方式 | 核心创新/特点 | 适用场景 |
---|---|---|---|---|---|---|
KAG | 图 + LLM 双向增益 | 图索引 + 向量索引 + RC层(文本块) | 多步检索 + 逻辑形式拆解 + 符号推理 | LLMFriSPG 逻辑形式,K-LoRA 预训练 | 逻辑推理与符号检索结合;概念图谱 + 文档片段互索引;反思式迭代检索 | 专业领域咨询;复杂多跳问答;需要逻辑严谨度高的场合 |
GraphRAG | 社区图 + 大模型 | 图结构(实体关系) + 社区摘要 | 先社区检索,再分层结构搜索;Leiden 算法社区检测 | LLM 根据社区摘要合成回答 | 将文本转为实体知识图谱并做社区划分;图 + RAG 结合;分层级社区摘要;全局视角强 | 大规模文本摘要;需要全局聚合信息的场合 |
MedGraphRAG | 三层图谱 (RAG 数据、医学文献、词典) + LLM | 子图索引 + 语义标签索引 | U 形检索:自顶向下精准检索 + 自底向上优化;余弦相似度、标签相似度融合 | LLM 生成三元组[rag data, source, definition];医学证据可追溯 | 面向医学场景,三层互联(患者RAG数据/文献/专业词典);U-Retrieval 平衡全局与精准 | 医疗问诊与临床决策;需要可溯源的专业回答 |
LightRAG | 轻量图结构 + 低层/高层双检索 | 图索引(实体-关系) + 向量索引(关键词) | 双层检索:实体级与主题概念级并行检索;增量更新 | LLM 对检索到的实体/主题做简洁汇总 | 双层级检索(局部-全局);轻量级去重与增量更新;高效率、低资源占用 | 知识库实时更新频繁;资源有限、需要快速检索的情境 |
MindMap | 双路径证据采集(path-based + neighbor-based) | 邻居子图与路径子图索引 | 多维度证据整合;LLM 进行子图聚合 | LLM 生成“思维导图”形式的可视化推理链 | 结合路径探索与邻居扩展;子图聚合后用 LLM 再整合;可视化“思维导图”增强可解释性 | 医疗诊断、案例分析;需要多维度证据汇聚与可视化推理 |
KI-DDI | 对话通道 + 症状-疾病图谱通道 (双通道) | GAT 图索引;对话向量索引 (SapBERT) | 动态 Top-K 疾病关联路由;sf-idf + 注意力机制作加权 | LLM 与对话信息结合,GAT 将图结构信息嵌入 | 面向医疗对话诊断;双通道融合(对话 + 图谱);自适应症状探索;可解释性较好 | 医生问诊场景;初步疾病筛查;对话式医疗咨询 |
medIKAL | 残差式 LLM + KG 协同 | 实体-类型权重索引(病史、症状、用药等),CoROM 稠密检索 | 先定位候选疾病 + 路径重排序 + 填空式多步推理 | LLM 残差网络融合 KG信息,多维度评估 | 实体类型加权,注重不同实体在 EMR 中的重要度;残差式架构避免重复依赖;路径评分提高诊断准确性 | EMR 智能诊断;需要融合病史、用药等多维信息;减少模型幻觉 |
GraphReader | 基于图的长文本处理架构 + Agent 探索 | 原子事实 / key elements 构建图索引 | 粗到细多步搜索;笔记本 notebook 记录探索过程 | LLM 作最终问答,记录多次 read_chunk/search_more 操作 | 针对长文本做图结构化(atomic facts);agent 自主探索;notebook 用于记忆和反思 | 大规模文献、长文本问答;多跳推理;逐步探索 |
GEAR | base retriever + graph expansion + Gist Memory | Passages + triples 双索引;向量相似度 + RRF 融合 | 多步检索:多样化 triple beam search;SyncGE 同步图扩展 | LLM 用 gist memory 累积上下文,多轮问答 | 记忆式累积;多源检索结果 RRF 融合;图扩展提高多跳检索覆盖面;多样性 beam 保证检索广度 | 复杂多跳问答;需要累积记忆与灵活检索的场合 |
OG-RAG | 超图检索 + 本体映射 + RAG | 超图索引(hyperedge) + 句子嵌入 Z | 贪心算法选最优超边集合,最小化覆盖;本体约束优先 | LLM 做上下文感知生成,以最小超边集作为回答证据 | 超图结构替代传统平面图;本体指导超边构建;通过贪心最小化选择上下文;高效且保证复杂关系的完整性 | 专业领域、本体驱动场景;需要处理复杂关系且追求最小上下文的应用 |
HybgRAG | 多模态混合检索 (文本 + 图) + 迭代自反馈 critic | 文本向量索引 + 关系图索引 (ego-graph) | 迭代 self-reflection 优化检索;critic 模块给反馈进行重排 | LLM 结合 critic 反思输出;可解释式多轮交互 | 混合检索(文本文档 + 图关系);critic 模块迭代校正;统一 RAG 框架;可解释性较好 | 异构知识库场景;需要迭代式高质量检索;可视化与可解释应用场合 |
KG4Diagnosis | GP LLM + 专科 LLM 多智能体;图谱支持诊断 | 医学图谱索引(BioBERT 实体识别) + 关系数据库 | 分层诊断:GP初筛,置信度不够则转专科;最终汇总 | 多智能体协同生成;专科验证 | 大规模覆盖 362 种常见疾病;分层诊断架构;专家知识持续验证;语义实体抽取 + 决策关系重建 | 医疗诊断咨询;分级诊疗;复杂问诊流程 |
KARE | 知识感知代理 + 图社区检索 + LLM 推理 | 多源知识图谱(社区化索引) + text embedding | 动态检索 (DGRA) + 多维度评分 + 历史权重衰减 | LLM 生成社区摘要/推理链;多任务学习融合 | 社区检测(Leiden)+ LLM 生成摘要;动态检索 (DGRA) 不断迭代;知识可解释可溯源 | 医疗预测(死亡率/再入院率);需要多源融合与社区检测的应用 |
KG-LLM | 预处理图路径 + LLM CoT 多跳推理 | DFS 提取 2-6 节点的有效路径;节点/关系 ID 标准化 | 多跳路径检索 (2-6跳),保留最优路径;根据指令微调做链式推理 | 将图路径转为自然语言 CoT,LLM 生成 | 图结构到自然语言转换;Chain-of-Thought 与 ICL 强化推理;多跳关系处理 | 多跳链路推理;知识图谱补全;关系预测;任何需要多跳链路可解释场景 |
DR.KNOWS | 层次症状聚类图 + LLM 推理 | 症状-疾病图 (CUI 节点) + 多级注意力 | 分层诊断策略;基于置信度阈值动态更新 | 多专科协同;LLM + 图GNN 路径推理 | 强调多层次症状表示;可解释的诊断路径;UMLS 集成;多专科协同诊断 | 临床诊断;针对复杂病情需多症状关联分析的场合 |
Graph-Based Retriever | 文献图 + 降采样平衡 + Pareto 优化 | 生物医学实体(基因/疾病/药物) 图索引 + 嵌入索引 | 最短路径 & 时效性 + 影响力打分;降采样缓解信息过载 | 结合实体标准化 + BM25/Embedding 重排 | 生物医学领域长尾知识检索;降采样 + Pareto 前沿平衡信息量;时效性与影响力多目标 | 生物医学文献检索;基因/药物关联分析;处理冗余长尾数据 |
KG-RAG | RAG + 大规模医学图 (UMLS/SPOKE) | 向量索引(余弦相似度) + 图索引(最小图结构) | 多轮相似度重排 + MMR 去冗余 + 动态权重调参 | LLM 结合上下文生成,减少 token 使用 | 医学专业化索引;轻量化 minimal graph 设计;动态可调权重;大幅减少上下文 token 消耗 | 医学 QA;PubMed 文献检索;需要高效检索 & 降低生成成本的应用 |
DOG (DoG) | 多角色辩论 + 迭代式交互架构 | 子图聚焦检索 + 三元组验证 | 辩论角色(专家/评论家/语言学家)指导多轮检索 & 简化问题 | LLM 多角色协同生成;每步输出都验证三元组 | 采用多角色辩论强化推理;子图聚焦减少干扰;迭代式简化复杂问题;可追溯 | 复杂推理对话;跨领域问答;需要自适应、多轮确认的场合 |
GNN-RAG | GNN (ReaRev + LMSR) + LLM RAG | 密集子图(dense subgraph) 索引 + 双重 GNN | 最短路径检索 & 概率阈值过滤;多层 GNN 消息传递 | LLM 结合图推理;多级 prompt 调度 | 将 GNN 图推理与 RAG 生成结合;多跳问题可一次性高效解决;支持多型号 LLM | 复杂多跳问答;图结构与语言融合;需要高可解释高效率多跳检索的场合 |
Think-on-Graph | Beam Search 多跳探索 + LLM 智能体 | 基于三元组图索引 + Top-N 路径选择 | 每步对实体和关系进行评分,动态裁剪;并行搜索 | LLM 作为代理进行路径探索 + 剪枝 | 将 LLM 作为图探索智能体;多跳路径 beam search;可变深度控制;可追溯 | 复杂推理问答;交互式知识探索;需要灵活深度可追踪推理 |
Tree-of-Traversals | ASM(Action State Machine)管理图遍历 | 动态子图 + 节点状态管理 | 树搜索 + 回溯;value function 打分节点 | LLM 基于节点状态生成;可回溯多路径 | 零样本推理框架;树搜索算法 + 多路径探索;状态机管理子图扩展;支持多 KG 并行 | 知识库不统一/多源融合场景;无训练条件;多分支搜索的推理 |
PBXAI | RL Agent + 医学知识图谱 + 患者特征 | 疾病节点、风险因素、患者节点;随机游走策略 | 强化学习(Actor-Critic) 控制路径;熵正则化提升多样性 | RL 生成可解释疾病进展路径 | 将患者特征与知识图谱相连;RL 优化路径搜索;可解释病情发展;个性化预测 | 医学个性化预测;临床病程追踪;需要可解释病情路径生成 |
TECHGPT-2.0 | 大模型(Transformer)驱动 + 知识图谱构建 | 任务分解(NER+RTE),图结构存储;QLoRA 优化长文本处理 | NER/RTE 双任务区分;多域知识抽取 | LLM 生成式,把抽取得到的结构用自然语言呈现 | 长文本位置插值;中文开源模型支持;多领域知识抽取;分布式训练 | 医疗/法律等专业领域知识抽取;构建领域图谱;处理长文本问题 |
AliCG | 四层概念图谱 + 用户行为动态更新 | 概念-实例双向索引 + GNN 概念表示 | 概念层次检索;用户点击和搜索行为对概念分布做动态推理 | LLM 或双塔模型对概念进行解释式生成 | 细粒度概念挖掘;长尾概念收敛;基于用户行为的概念演化;四层概念层次 | 搜索/推荐系统;需要动态概念图谱;长尾概念识别与更新 |
ChatKBQA | Generate-then-Retrieve KBQA 框架 | SPARQL / logical form + 无监督检索 (SimCSE/BM25) | 先生成逻辑形式,再检索实体/关系;多阶段 beam search | LLM 生成可执行查询;无监督检索替换执行 | 生成后检索的新范式;可插拔 LLM & 检索模块;两阶段子图构建(实体+关系);逻辑形式可解释 | 知识库问答(KBQA);复杂逻辑查询;想要减少无效检索的问答场景 |
HyKGE | 假设输出 -> 图谱检索 -> 重排序增强 | GTE 图嵌入;bge-reranker 向量索引 | 分段粒度重排 + 三种推理链 (path/co-ancestor/co-occurrence) | LLM 做假设输出验证 + 图谱对齐 | 结合“假设输出”指导检索;三类推理链覆盖多角度;fragment 级重排序;丰富医学扩展 | 医学场景;多跳推理问答;需要假设+图谱融合的场合 |
GNP | GNN 编码器 + 跨模态注意力 | 图索引(GAT编码) + 文本向量 | 实体链接 -> 二跳邻居 -> 子图检索 | 提示嵌入融合 GNN 表示;跨模态注意力 | 图神经网络与 LLM 结合;自监督链接预测;域投影器桥接图与文本;支持冻结/微调两种模式 | 常识推理、医学推理、跨模态应用;需要结构与文本对齐场合 |
AMAR | 多维度检索 (实体、关系、子图) + 自对齐机制 | 实体/关系/子图 3层索引;Siamese 网络计算相关性得分;Prompt Embeddings | 多层并行检索 & 相关性门控;logical form 引导多跳探索 | LLM + 软门控机制(对齐不同维度信息) | 三维度联合检索;自对齐机制减少噪声;可微分的嵌入表示;融合实体/关系/子图 多层检索、逻辑推理、上下文自适应 | 跨文档复杂问答;需要多维度对齐的知识图谱应用;多跳关系推理 |
Generate-then-Ground | 先用 LLM 生成候选答案 → 再检索文档/证据进行验证与修正 | 多种检索器可插拔(BM25/Google/ColBERTv2);批量 Grounding 文档批处理 | 生成 → 批量验证;逐步校正 | LLM 内部先行生成,再查证文档进行改写/修正 | 解耦生成与验证;批处理检索提升效率;减少对检索器的强依赖;指令蒸馏可让小模型也具备验证能力 | 大模型幻觉校正场景;复杂长文问答;需要先行答案+后验证的多步骤推理 |
KnowledgeNavigator | 迭代式图检索 + 权重投票机制 | 三元组图结构 + 问题多版本生成(权重2:1对比);关系频率排序 | 按跳数预测深度;逐轮选择排名前 M 个最优关系继续推理;合并子图结果 | LLM 做路径探索和答案生成;对关系选择做“投票” | 动态迭代检索;多版本问题投票机制增进检索多样性;支持中间子图汇聚;可生成可执行查询 并进行后续深层次检索 | 复杂多跳问答;需要并行搜索多个推理路径;可插拔知识图谱融合 |
UniOQA | 双流水线并行(Translator & Searcher) + 动态决策融合 | Cypher 查询 + Elasticsearch;结合 ERR 算法做实体与关系替换 | 两条工作流并行:生成式翻译(Translator) 与搜索检索(Searcher);动态选择 | LLM 生成翻译结果 + 动态决策整合;ERR 算法改写实体关系 | 执行式与检索式的统一框架;ERR(实体关系替换)算法确保查询准确;F1分数动态选择结果 解决问题类型区分和路径替换 | 知识图谱问答;执行式/检索式场景混合;适合多类型问题或需要并行处理的问答场景 |
Retrieve-Rewrite-Answer | 单次检索 + 重写模块 + 答案再生成 | 图数据库(三元组关系) + 文本段落;(hop 预测/路径预测) | 多步预测:1) hop 预测 2) 路径预测 3) 三元组采样 | LLM 进行文本重写 + 答案合成 | 关注答案敏感性;“重写”模块优化知识表示;自动语料生成和反馈评估 路径预测与 hop 预测结合,多阶段保障检索与生成质量 | 知识图谱问答;对答案质量要求高,需精细编辑最终回答;适合多跳路径任务 |
Logic Query of Thoughts | LLM + KG 双路径并行 (模糊向量 & 知识图谱推理) | 模糊逻辑向量表示实体 & 关系;ComplEx 等嵌入 | 将复杂逻辑查询分解为多步子查询,LLM 处理自然语言部分,KG 做符号推理 | LLM 输出 + KG 符号结果混合,使用模糊逻辑合并 | 混合推理框架;可处理投影/交集/并集/否定等逻辑操作;LLM 与图共同完成 支持模糊概率表示,减少纯符号/纯语言局限 | 医疗/法律/金融等逻辑性强领域;需要对复杂逻辑表达式分解且可追溯的问答 |
KEQING | 模板驱动 + 问题分解 + 逻辑链路索引 | 预定义问题模板 + 子问题序列;三元组存储实体关系 | 将复杂问题拆分成子问题,匹配预收集的逻辑链并逐步查询 | LLM 或模板驱动生成最终答案;每个子问题都对应逻辑链 | 问题分解 + 逻辑链对齐;可解释性高;对复杂长问题有较好的系统化分解 支持多阶段检索整合,确保步骤清晰 | 复杂 KBQA;多问句级推理;需要系统化的子问题模板匹配 |
Plan-on-Graph | 任务分解 + 路径探索 + 动态反思纠错 | 多级图索引 + 预检索假设;对目标拆解到子目标,图中逐步寻路 | 路径搜索:beam search + 任务分解 + 反思回溯 | LLM 根据路径进度输出分步答案,并可动态修改计划 | 专注任务分解 (Planning) + 图结构;允许在错误时回退重试;自适应选择下一个子目标 对多阶段问题(如复杂问答、任务规划)有较好的灵活性 | 各类多步骤问答/任务型对话;需要可回溯的探索式搜索;复杂计划执行场合 |