大语言模型(LLMs)在现实世界场景中表现出色,但在知识密集型任务中存在幻觉问题,即生成的答案虽然看似合理但缺乏事实依据。现有工作主要使用检索增强生成(RAG)方法将外部文本语料库作为上下文输入LLMs,但这些方法无法有效处理图结构中的知识。此外,现有的图神经网络(GNN)方法主要用于传统的图任务,如节点分类和链接预测,而不是与LLMs结合进行图推理。今天主要内容是构建一个名为GRBENCH的图推理基准数据集,并提出一个名为GRAPH -COT的简单有效的框架,通过迭代推理图来增强LLMs。通过图推理来增强大型语言模型(LLMs)的知识理解能力,特别是针对知识密集型任务中的幻觉问题。
一、研究背景
-
研究问题:论文要解决的问题是如何通过图推理来增强大型语言模型(LLMs)的知识理解能力,特别是针对知识密集型任务中的幻觉问题。
-
研究难点:
-
现有检索增强方法假设知识以独立的文本单元存在,忽略了多个文本单元之间的关联;
-
现实中的文本单元通常相互连接形成图,图中的知识不仅体现在文本内容上也体现在其结构上;
-
图的规模随着跳数增加呈指数增长,导致过长的上下文序列可能使LLMs迷失在中间。
- 相关工作:
-
检索增强方法(RAG),将相关文本作为上下文输入LLMs;
-
现有的图神经网络(GNN)方法主要关注传统的图任务,如节点分类和链接预测;
-
Graph-of-thought方法提出让LLMs进行基于图的推理,但主要针对文本推理。
二、Graph-COT框架
论文提出了一个名为Graph Chain-of-thought (GRAPH-COT) 的框架,用于通过图推理来增强LLMs。
1. 图推理框架
-
GRAPH-COT是一个迭代框架,每次迭代包含三个子步骤:LLM推理、LLM与图的交互和图的执行。
-
LLM推理步骤中,LLMs根据当前信息推断出还需要从图中获取哪些外部信息;
-
LLM与图的交互步骤中,LLMs生成从图中获取信息的交互操作;
图的执行步骤中,执行交互操作并返回相应的信息。
2. 图函数定义
为了实现LLM与图的交互,论文预定义了四种图函数:
-
RetrieveNode(Text)
:通过语义搜索识别图中的相关节点。 -
NodeFeature(NodeID, FeatureName)
:从图中提取特定节点的文本特征信息。 -
NeighborCheck(NodeID, NeighborType)
:返回图中特定节点的邻居信息。 -
NodeDegree(NodeID, NeighborType)
:返回图中特定节点的邻居类型数量。
3. 链式推理
通过多次迭代,LLMs逐步推理出图中的关键信息,直到得出最终答案。每个迭代过程中,LLM根据前一步的推理结果生成新的交互操作,并从图中获取新的信息,重复此过程直到推理结束。
三、实验设计
-
数据集构建:论文构建了一个名为GRBENCH的数据集,包含10个真实世界的图,覆盖学术、电子商务、文学、医疗和法律五个领域。每个样本是一个问题-答案对,问题设计为模拟特定领域的真实世界用例,答案需要通过参考图或从中检索信息获得。
-
数据集来源:学术领域的图来自DBLP和Microsoft Academic Graph;电子商务领域的图来自Amazon产品数据集;文学领域的图来自Goodreads数据集;医疗领域的图来自Hetionet生物疾病图;法律领域的图来自CourtListener数据集。
-
问题模板设计:手动设计了三种难度级别的问题模板:简单问题(单步推理)、中等问题(多步推理)和困难问题(归纳推理)。每个问题模板由四名计算机科学博士生成,确保问题的准确性和意义。
-
问题表达多样性:使用GPT-4对每个问题模板进行五种不同表达方式的改写,以增加数据样本的多样性。
-
自动答案生成:通过实现图函数和函数链,从图中自动生成每个生成问题的正确答案。
四、结果与分析
-
总体性能:实验结果表明,GRAPH-COT在所有基准测试中均显著优于基线方法。具体来说,GRAPH-COT在学术、电子商务、文学、医疗和法律领域的平均Rouge-L得分分别为31.89、42.40、41.59、22.33和30.52,而基线LLMs在这些领域的得分普遍较低。
-
消融研究:零样本实验表明,没有推理示范的情况下,GRAPH-COT在所有数据集上的表现接近于零,说明LLMs在没有充分指导的情况下无法有效工作。跨域实验表明,领域内示范效果良好,GRAPH-COT对示范领域的变化具有鲁棒性。
-
不同LLMs的表现:使用不同的LLMs骨干进行实验,结果表明,具有更先进指令遵循能力和推理能力的LLMs(如GPT-4)在GRAPH-COT中表现更好。
-
RAG与GRAPH-COT的比较:实验结果显示,检索增强的LLMs在大多数情况下表现优于文本检索增强的LLMs,但仍未达到GRAPH-COT的性能。这是因为大跳数的子图检索会导致过长的上下文序列,从而使LLMs迷失在中间。
-
不同难度问题的表现:分析GRAPH-COT在不同难度问题上的表现,发现其在简单问题上表现较高,而在中等/困难问题上的表现较差。
五、总结
在这项工作中,研究了用(文本赋予的)图作为外部知识源来增强LLMs的问题。首先手动构建了一个名为GRBENCH的基准数据集,包含来自5个领域的1,740个问题和10个图。GRBENCH中的每个问题都可以通过参考图来回答。进一步提出了一种简单有效的框架,称为GRAPH-COT,它可以通过让LLMs对图进行迭代推理来增强LLMs。GRAPH-COT在每次迭代中包含三个子步骤:LLM推理、LLM图交互和图执行。然后在GRBENCH上使用三个骨干LLMs进行了实验,并展示了GRAPH-COT的有效性。未来的工作可以探索如何让LLMs更好地理解图以及如何让LLMs进行更复杂的推理。
六、导读总结
优点与创新
-
提出问题并引入基准数据集:首次提出了将大型语言模型(LLMs)与外部图结构知识源结合的问题,并引入了名为GRBENCH的基准数据集。
-
提出简单有效的框架:开发了名为GRAPH-COT的迭代框架,通过逐步推理图结构来增强LLMs的能力。
-
系统实验:在GRBENCH数据集上进行了广泛的实验,展示了GRAPH-COT的有效性,并分析了其在不同展示设置、骨干LLMs和问题难度下的性能。
-
探索失败案例:探讨了GRAPH-COT的失败案例,并提出了未来改进的方向。
-
多领域应用:GRBENCH数据集涵盖了学术、电子商务、文学、医疗和法律五个领域,展示了GRAPH-COT在不同领域的适用性。
-
零样本和跨域研究:通过零样本研究和跨域研究,验证了GRAPH-COT在没有推理演示和领域偏移情况下的鲁棒性和适应性。
不足与反思
-
问题多样性和难度:尽管使用了GPT-4进行问题模板的重述,但模板大多为手动设计,可能在问题多样性和难度方面仍有改进空间。
-
LLM骨干模型的局限性:目前使用的LLM骨干模型是一个不可微调的API模型,或者调优成本非常高。未来的方法可能需要考虑如何显式训练LLMs以在图上导航。
-
图理解改进:GRAPH-COT主要使用自然语言描述图结构,未来可以考虑使用更具结构感知的语言(如graphXML)来更好地帮助LLMs理解图。
-
复杂推理:当前GRAPH-COT主要关注链式推理,未来可以探索更复杂的推理范式,如基于树的推理和基于图的推理。
七、关键QA
问题1
GRAPH-COT框架中的图函数定义是什么?这些函数如何帮助LLMs与图进行交互?
-
在GRAPH-COT框架中,定义了四种图函数来帮助LLMs与图进行交互:
-
RetrieveNode(Text)
:通过语义搜索识别图中的相关节点。 -
NodeFeature(NodeID, FeatureName)
:从图中提取特定节点的文本特征信息。 -
NeighborCheck(NodeID, NeighborType)
:返回图中特定节点的邻居信息。 -
NodeDegree(NodeID, NeighborType)
:返回图中特定节点的邻居类型数量。 -
这些函数使得LLMs能够逐步推理出图中的关键信息。例如,在“Who are the authors of paper ‘{paper_title}’?”这个问题中,LLM首先使用
RetrieveNode
函数找到论文节点,然后使用NodeFeature
函数提取论文的作者信息。
问题2
GRAPH-COT框架在实验中表现如何?与其他基线方法相比有哪些优势?
- GRAPH-COT框架在所有基准测试中均显著优于基线方法。具体优势包括:
- 显著优于基线:GRAPH-COT在所有领域图和数据集上的表现均优于标准LLMs、文本检索增强LLMs(Text RAG LLMs)和图检索增强LLMs(Graph RAG LLMs)。
- 结构化上下文:图检索增强LLMs(Graph RAG LLMs)在大多数情况下优于文本检索增强LLMs(Text RAG LLMs),因为前者提供了更具结构感的上下文,有助于问题解决。
- 链式推理:GRAPH-COT通过多次迭代,LLMs逐步推理出图中的关键信息,直到得出最终答案,这种链式推理方法使得LLMs能够更好地处理复杂和知识密集型的任务。
问题3
GRAPH-COT在处理不同难度级别的问题时表现如何?有哪些改进方向?
- GRAPH-COT在处理不同难度级别的问题时表现如下:
- 易问题:GRAPH-COT在易问题上表现较高,因为这些问题的推理链相对简单,LLM可以通过少量的交互就能找到答案。
- 中/难问题:GRAPH-COT在中/难问题上表现较差,因为这些问题的推理链更复杂,需要进行多步推理和更多的图交互。
- 改进方向包括:
- 更好的图理解:探索如何让LLMs更好地理解图的结构和信息,例如使用更结构化的语言描述图(如graphXML)。
- 复杂推理:研究如何让LLMs进行更复杂的推理,例如基于树的推理和图推理方法,以处理更复杂的知识密集型任务。
引用
- https://github.com/PeterGriffinJin/Graph-CoT
- https://arxiv.org/pdf/2404.07103
最后分享
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】