论文浅尝 | UrbanKGent:基于大模型智能体的城市知识图谱构建框架(NeurIPS2024)

笔记整理:郭凌冰,浙江大学博士,研究方向为知识图谱表示学习

论文链接:https://arxiv.org/abs/2402.06861

发表会议:NeurIPS 2024

1. 动机

城市知识图谱已经成为一种新兴的数据集成模块,用于从多源城市数据中提炼关键知识,服务于不同城市应用场景。尽管前景巨大,但城市知识图谱构建(UrbanKGC)目前仍严重依赖于人力工作,严重阻碍了其潜在发展。本文提出的UrbanKGent,是一个统一的大型语言模型智能体框架,专用于城市知识图构建。具体来说,UrbanKGent首先了知识指令集,其能够利用异构性感知和地理空间注入以高效完成UrbanKGC任务,如关系三元组提取和知识图谱补全。之后,UrbanKGent利用工具增强迭代推理轨迹模块,以增强和改进从GPT-4中提炼出的推理轨迹。最后,通过在Llama 2和Llama 3等开源大模型家族上使用增强后的推理轨迹数据进行混合指导微调,得到UrbanKGC智能体家族,如UrbanKGent-7/8/13B。本文对两个真实世界数据集进行了全面评估,同时使用人工评估和GPT-4自我评估。实验结果表明,UrbanKGent家族不仅在UrbanKGC任务中明显优于31个对比方法,而且在成本大约低20倍的情况下,也比最先进的GPT-4等模型提高了超过10%。与现有基准相比,UrbanKGent家族只需使用五分之一的数据就能构建出具有数百倍更丰富关系的UrbanKG。

2. 贡献

本文的主要贡献有:

(1)提出了一种新颖高效基于大模型智能体的UrbanKG构架框架。

(2)提出了增强迭代推理轨迹模块及混合微调模块,用于提升大模型智能体在构建城市知识图谱时的推理能力和地理空间信息感知能力。

(3)对基准数据集进行的大量实验表明,UrbanKG在低训练开销下实现了最先进的性能。

3. 方法

构建一个与各种UrbanKGC任务兼容的LLM智能体是一个具有挑战性的问题:

挑战1:如何使LLMs适应UrbanKGC?由于训练LLMs的自然语言处理语料库与城市领域的特定语料库之间存在差距,LLMs可能无法很好地与特定任务对齐。例如,城市文本数据通常是异质的,包含多方面的城市知识(例如空间、时间和功能方面)。如下图所示,“哥伦比亚大学”的文本描述反映了其地理空间位置(即空间关系)、建设时间线(即时间关系)以及其为城市提供教育服务的方式(即功能关系)。LLMs可能需要先对齐以准确理解异质的城市关系,并进一步提取这些城市空间、时间和功能关系。

挑战2:如何提高LLMs的UrbanKGC能力?LLMs对城市知识图构建的有效性受到其薄弱的数值计算能力的限制,导致它们在复杂地理空间关系的提取方面存在缺陷。然而,城市地理空间关系在城市语义建模中起着重要作用,并已广泛纳入先前的UrbanKGs。如下图中所示,提取的 “哥伦比亚大学”和“帝国大厦”之间的“不相连”地理实体关系,对于城市地理语义建模是有用的。准确提取这种地理空间关系需要必要的地理空间计算能力(例如利用纬度和经度进行距离计算)和推理能力(即推导地理空间关系推理的计算结果)。改进LLMs的地理空间计算和推理能力以满足UrbanKGC任务的要求是值得深入研究的。

图1 城市知识图谱构建的例子

UrbanKGent框架的整体流程下图2所示:

(1)知识指令生成包括考虑异质性的和融入地理空间信息的模块,用于使LLMs与UrbanKGC任务对齐。

(2)工具增强的迭代轨迹细化提出了地理空间工具接口调用和迭代自我细化机制,以增强和改进生成的轨迹。

(3)混合指导微调基于细化的轨迹对LLMs进行微调,以高效地完成各种UrbanKGC任务。

图2 UrbanKGent框架

在指令设计中,对于异质性感知模块,本文分别构造了多个不同的视角,如空间,时间,功能性等等。对于输入文本,本文从不同的视角出发以多轮问答对话的方式来完成命名实体识别、关系抽取、三元组抽取等子任务。对于地理空间信息融合模块,本文通过引入地理位置信息,如经纬度到指令中,使大模型利用这些信息进行推理。

在构建完最初的指令集之后,本文使用推理轨迹的方式使大模型微调到UrbanKGC任务。这一方式借鉴了现有的思考链Chain-of-Thought (CoT)方法,一种无需梯度更新的技术,通过引导大模型逐步推理的方式来完成城市知识图谱构建。

最后,由于使用GPT4模型的开销是巨大的,本文还提出基于推理轨迹的混合指令微调方法,即将部分GPT4生成的数据与训练集混合以LoRA的方式微调开源大模型,如Llama 2、Llama 3等,这一方式大大节省了推理时的资源开销。

4. 实验

本文使用的两个纽约(NYC)和芝加哥(CHI)数据集的统计信息如下表1所示。本文首先构建了两个小数据集(即NYC-Instruct和CHI-Instruct)用于指导微调,以及两个中等数据集(即NYC和CHI)来验证构建的UrbanKGC智能体的性能。剩余的数据作为大规模UrbanKGC数据集(即NYC-Large和CHI-Large)。这三种类型的数据集是不重叠的,以防止数据泄漏。

表1 数据集统计

实验结果如表2所示。可以看出,本文所提出的知识图谱构建智能体在两个数据集上优于所有31个基准模型。具体而言,UrbanKGent-13B相对于GPT-4在相同推理流程下实现了(15.56%,14.29%,14.89%和11.90%)的提升。在芝加哥的提升分别为(15.22%,17.07%,13.46%和13.95%)。此外,UrbanKGent-7/8B也实现了与GPT-4相当的性能。

表2 城市知识图谱构建结果

图3比较了不同模型的开销及时效,可以看出,本文提出的UrbanKGent在实现更低响应时效的同时大幅降低了费用开销,以低于GPT-4近20倍的成本获取了更高的性能。

图3 不同模型的开销与推理时间

5. 总结

本文提出了UrbanKGent,一个基于大模型的城市知识图谱构建框架。广泛的实验结果表明了UrbanKGent在改进城市知识图谱构建任务方面的显著进展,获得的UrbanKGent智能体系列包括7/8/13B版本,与为城市知识图谱构建而衍生的GPT-4相比,具有更低的推理延迟和成本,基于开源技术的UrbanKGent还能促进未来的城市知识图研究和更广泛的智慧城市应用。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
img

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

在这里插入图片描述
👉学会后的收获:👈
基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值