总结：知识图谱KG+大模型LLM

lichunericli

已于 2024-05-01 23:20:06 修改

阅读量2.9k

点赞数 35

分类专栏： LLM零碎知识文章标签：人工智能知识图谱自然语言处理

于 2024-01-20 17:15:20 首次发布

本文链接：https://blog.csdn.net/lichunericli/article/details/135718516

版权

本文探讨了知识图谱（KG）与大语言模型（LLM）在问答和推理中的应用，包括基于LLM的KG构建、预-LLM方法和LLM-based方法。重点介绍了实体链接、语义解析、检索排序模型以及KG增强的LLM。此外，还提到了一些开源项目和结构化表示增强技术，如KG-RAG、Structure-CLIP和BSChecker，这些技术提高了推理的准确性和可靠性。

摘要由CSDN通过智能技术生成

原文地址：LLM+KG

LLM-based KG
- KnowLM
- OpenSPG
KG-based RAG
- 基本原理
  - 从query出发的语义解析
    - pre-LLM方法
      - 思想：直接将问题解析为对应的逻辑表达式，然后到知识图谱中查询。
      - 方法：通常包含逻辑表达式、语义解析算法、语义解析模型训练三部分。一般步骤是将问句解析成中间表示，再将中间表示向知识库映射，获得最终的逻辑表示。
        
        逻辑表达式：lambda-calculus（支持实体，数词，函数等常量，支持多种逻辑连接词，支持\exists,\forall等存在量词，argmax,argmin等额外量词）,lambda-DCS（组合语法更简单，支持最基本的实体、关系、Join/intersection操作，支持Bridging操作，可以把两个独立的语义片段组合起来，将离散语义组合为更完整的语义）, 组合范畴语法CCG（由解析规则、解析算法、解析模型训练组成，解析规则由词汇、句法类型、语义类型构成，CCG支持应用、组合、类型转化、并列等操作）。
        
        语义解析的基本步骤：短语检测（识别短语的实体和关系，包括分词、词性标注POS、命名实体识别NER，依赖关系分析构造短语依存图等步骤），资源映射（grouding，包括实体链接、概念匹配、关系分类/关系抽取，目标是将问句与知识图谱上的本体匹配，可以从短语依存图出发实现），语义组合（包括句法分析，组合模型训练，语义组合等步骤），逻辑表达生成。
        
        语义解析器的训练：目标是通过大规模知识库上的问题/答案对集合训练Parser，用在语义组合阶段。以词法、语法、对齐、桥接、实体链接、关系识别为特征，以候选逻辑表达式为目标
      - 难点：1. 语义解析的Bridging操作，通常谓词不是明确表示的,导致问句中的谓词无法与知识图谱中的关系直接映射，将实体周边的谓词与问句中真正的谓词对应，即Bridging。2. 知识图谱是高度不完备的，因此需要进行问句的短语重写来匹配知识（Prapharasing），因此需要搜集高质量的语料来训练短语重写模型。
      - 缺点：最大缺点是对知识图谱中资源的利用程度不够,知识图谱中的海量知识是可以极大的增强问句的理解过程的,更好的方法应该充分深挖问句和知识图谱两方面资源所包含的信息。
    - LLM-based方法
      - 增加一路与向量库平行的KG上下文增强策略，基于模型的NL2X能力或单独的NL2X模块，将query解析为图查询语言，直接执行图查询，然后后查询的结果转换为文本片段。
  - 从图谱出发的检索排序
    - pre-LLM方法
      - 主要思路：根据query抽取实体，然后把实体作为种子节点对图进行采样（必要时，可把KG中节点和query中实体先向量化，通过向量相似度设置种子节点࿰