论文信息
标题:Unifying Large Language Models and Knowledge Graphs: A Roadmap
作者:Shirui Pan
摘要
LLMs,例如chatGPT和GPT4,由于其涌现能力和泛化性,对自然语言理解和人工智能领域产生了新的冲击。
然而,LLMs是一个黑箱模型,往往缺乏捕获和获得事实知识。相反,知识图谱,例如维基百科等,是有结构模型。存储着丰富的事实知识。KGs可以通过提供额外的知识去增强大语言模型的推理和解释性。同时,知识图谱也很难去自然构造和进化,对于现有的知识图谱方法来说,生成新的事实和表示未知数据是一个挑战。因此,统一LLMs和KG,同时利用他们的优点是一种补充。
在这篇文章中,我们提出了统一LLMs和KG的路线图。我们的路线图包含三个通用框架:
- KG-enhanced LLMs:在LLMs的预训练和推理阶段,融入KG,增强对LLMs学到的知识的理解。
- LLM-augmented KGs:利用LLMs执行知识图谱的各项任务,例如嵌入,补全,构造,图-文本生成 以及问答系统。
- Synergized LLMs+KGs:LLMs和KGs发挥平等作用,相互合作,以数据和知识驱动的双向推理方式增强LLMs和KGs的能力
我们在路线图中回顾和总结了这三个框架内的现有成果,并指出了它们未来的研究方向。
背景
KGs
优点
- 结构化
- 准确率
- 确定性
- 可解释性
- 领域专业知识
缺点
- 不够完整
- 语言理解能力匮乏
- 对没见过的数据泛化性差
LLMs
优点
- 通用知识
- 语言处理
- 泛化性强
缺点
- 隐式知识(implicit)
- 幻觉(Hallucination)
- 犹豫(indecisiveness)
- 缺乏领域/新知识
KGs中现有方法的不足
- 不能对新事物或关系进行有效处理
- 忽略大量的文本信息
- 泛化能力较差
LLM可以帮助KG更好的利用和理解文本信息。
大模型分类
encoder-only | encoder-decoder | decoder-only | |
---|---|---|---|
代表模型 | Bert | T5 | GPT |
训练方法 | predict masked words | masking and predicting spans of masking words | predict the next word |
下游任务 | 文本分类,实体命名 | summariaztion, translation, and question answering | generally perform downstream tasks from a few examples or simple instructions |
知识图谱分类
encyclopedic KGs | commonsense KGs | domain-specific KGs | multimodal KGs |
---|---|---|---|
百科知识图谱 | 常识知识图谱 | 领域知识图谱 | 多模态知识图谱 |
研究内容
LLMs和KGs统一的三种通用框架:
- KG-enhanced LLMs
- LLM-augmented KGs
- Synergized LLMs + KGs
KG-enhanced LLMs
- 在预训练阶段,融入KGs
- 在推理阶段,融入KGs
- 利用KGs解释事实和LLMs的推理过程
LLM-augmented KGs
将LLMs作为 text encoder用于知识图谱的相关任务。
- take advantage of LLMs to process the textual corpus in the KGs and then use the representations of the text to enrich KGs representation
- 借助LLMs提取关系和实体。
- 设计一个KG promot,将结构化的KGs高效地转换成LLMs可以理解的格式,从而LLMs可以直接作用于KG相关的任务。
Synergized LLMs + KGs
包含四个layer:
- Date
- LLMs和KGs分别处理文本和结构化数据以及多模态数据 - Synergized Model
- Technique
- Application
- 搜索引擎、推荐系统、AI助手
KG-ENHANCED LLMS
KG-enhanced LLM Pre-training
- Integrating KGs into training objective(将知识图谱整合到训练目标)
- 利用知识图谱结果分配mask的概率
- 使用知识图谱来选择实体进行遮蔽
- 使用知识图谱获取遮蔽实体的干扰项
- 实体预测 (预训练任务)