文献阅读与翻译《Exploring Large Language Models for Ontology Alignment》

原文下载地址:https://cz5waila03cyo0tux1owpyofgoryroob.aminersz.cn/DE/09/0B/DE090B033C4B397841A657D511F88287.pdf


目录

摘要

1 引言

2 方法论

任务定义:

概念识别:

3 评价

数据集构建:

评价指标:

模型设定:

结果:

4 结论与未来工作展望


摘要

        本文研究了最近的生成式大语言模型(LLMs ),如GPT系列和Flan - T5,在本体对齐中的适用性,以识别跨本体的概念等价映射。为了测试Flan - T5 - XXL和GPT - 3.5 - turbo的zero - shot1性能,我们利用OAEI Bio - ML轨道的两个等价匹配数据集的挑战性子集,同时考虑概念标签和结构上下文。初步的研究结果表明,在仔细的框架和及时的设计下,LLMs有可能超越现有的本体对齐系统,如BERTMap。

1 引言

        本体对齐,也称为本体匹配( Ontology Matching,OM ),是指识别本体之间的语义对应关系。它在知识表示、知识工程和语义Web中发挥着至关重要的作用,特别是在促进跨异构数据源的语义互操作方面。本研究关注命名概念的等价匹配问题

        先前的研究已经有效地利用了预训练的语言模型,如BERT和T5,用于OM [ 1、2],但最近的大型语言模型( LLMs ),如ChatGPT [ 3 ]和Flan - T5 [ 4 ],需要进一步探索。这些LLMs的特点是较大的参数规模和特定于任务的微调,通常在应用程序的零样本设置或少量样本设置中由面向任务的提示引导。

        本工作探索了LLMs用于零样本OM的可行性。考虑到LLMs的巨大计算需求,在全面部署之前,使用较小但具有代表性的数据集进行实验是至关重要的。为此,我们从NCIT - DOID和SNOMED - FMA ( Body )等价匹配数据集中提取了两个具有挑战性的子集。Bio-ML的两个部分—与基于机器学习的OM系统兼容的本体对齐评估倡议( OAEI )的轨迹。值得注意的是,提取的子集排除了"容易"的映射,即可以通过字符串匹配对齐的概念对。

         我们主要评估了开源的LLM,Flan-T5-XXL,Flan - T5的最大版本包含11个B参数[ 4 ]。我们评估了其在使用概念标签、分数阈值和结构上下文方面的性能。对于基线,我们采用了先前性能最好的OM系统BERTMap和它的轻量级版本BERTMapLt。并对GPT - 3.5 - turbo进行了初步测试;但由于其成本较高,仅报道了初步结果。我们的研究结果表明,基于LLM的OM系统具有超越现有系统的潜力,但需要在快速设计和探索本体上下文的最佳表示方法方面做出努力。

2 方法论

任务定义:

概念识别:

        这实质上是一个二分类任务,它确定给定名称(每个概念可能有多个标签)和/或附加结构上下文的两个概念是否相同。由于LLMs通常以聊天式的方式工作,我们需要提供一个任务提示,其中包含两个输入概念的可用信息,并从LLMs的响应中收集分类结果。为了避免过多的提示工程,我们在GPT - 4的基础上,将任务描述(正如前面的句子一样)和可用的输入信息(例如概念标签和结构上下文)呈现给ChatGPT,并要求其为类似自身的LLM生成任务提示得到的模板如下

给定与两个概念相关联的名称和层次关系列表,您的任务是确定这些概念是否相同。考虑如下:

源概念名称:<概念名称列表>

源概念的父概念:<概念名称列表>

源概念的子概念:<概念名称列表>

.. .. (对于目标概念相同)

分析每个概念提供的名称和层次信息,并根据它们的关联名称和层次关系,给出这两个概念是相同的还是不同的( '是'或'否')的结论。

当我们告知ChatGPT双亲/孩子上下文时,可以考虑在第二轮中生成斜体部分。由于提示语表示"是/否"的疑问,我们预期在LLM反应中会产生"是"或"否"的标记。为简单起见,我们使用"是"标记的生成概率作为分类得分。注意到这个分数正比于最终的映射分数,但不是正规化的。对于基于排名的评价,给定一个源概念,我们还考虑带有"不"答案的候选目标概念它们的"不"分数,将它们放在带有"是"答案的候选目标概念之后,按照升序排列- -更大的"不"分数意味着更低的等级。

3 评价

数据集构建:

        利用现有的正常或大规模OM数据集评估LLMs可能是时间和资源密集型的。为了在全面实施之前获得有洞察力的结果,我们从OAEI Bio - ML赛道的NCIT - DOID和SNOMED - FMA ( Body )等价匹配数据集中提取了两个具有挑战性的子集我们选择Bio - ML因为它的基本真值映射是由人类产生的,并且来源于可靠的来源Mondo和UMLS。我们从五个可用的选项中选择了NCIT - DOID和SNOMED - FMA ( Body )因为它们的本体在层次上下文中更丰富。对于每一个原始数据集,我们首先从基本真值映射中随机选择50个匹配的概念对,但排除可以用直接字符串匹配(也就是说,至少有一个共享标签)对齐的概念对。这种选择是由He等人[ 1 ]中基于子词倒排索引的idf分数引导的,它们能够产生类似于固定源概念的目标本体概念。我们最终根据真值映射随机选择50个没有匹配目标概念的源概念并为每个源概念创建100个候选映射因此每个子集包含50个有匹配的源本体概念和50个无匹配的源本体概念每个概念与100个候选映射相关联,最终共抽取10000个,即( 50 + 50 ) * 100个概念对。

评价指标:

        从给定子集中的所有10 000个概念对中,OM系统预计可以预测真实映射,可以与使用Precision、Recall和f值定义的50个可用的真实映射进行比较:

其中,Mpred是指被系统预测为真映射的概念对集合(在10 , 000对中),Mref是指50个真值(参考)映射。      

        考虑到每个源概念与100个候选映射相关联,我们可以根据它们的得分计算基于排序的度量。具体来说,我们计算50个匹配的源概念的Hits @ 1当最高得分的候选映射是真实映射时,计算hit。对于这些匹配的源概念,MRR得分也被计算出来,并将候选映射之间的真实映射的相对排名的倒数相加。这两个分数被表述为:

        对于50个不匹配的源概念,我们计算了拒绝率( Rejection Rate,RR ),当所有候选映射被系统预测为错误映射时,考虑成功拒绝。

其中Tc是源概念c的目标候选类的集合,Ic≡d是一个二元指示子,如果系统预测c和d之间的匹配,则输出1,否则输出0。值得注意的是,只有当所有目标候选概念都被预测为不匹配时,乘积项才变为1,也就是说,对于所有d∈Tc。Ic≡D = 0 .

模型设定:

        我们考察Flan - T5 - XXL在各种设定下的情况:( i )普通设置,如果映射与"是"的答案相关联,则认为它是真的;( ii )阈值设置,过滤掉得分低于某个阈值的"是"映射;( iii )双亲/孩子设置,其中采样的父亲和孩子的概念名作为额外的上下文;和( iv )双亲/孩子+阈值设置,结合结构上下文和阈值。

        我们还对GPT - 3.5系列中最有能力的变种GPT - 3.5 - turbo进行了同样的提示实验。然而,由于该模型的高成本,仅报告了设置( i )

        对于基线模型,我们考虑了BERTMapBERTMapLt,其中前者使用微调的BERT模型进行分类,后者使用标准化的编辑相似性。值得注意的是,BERTMap和BERTMapLt本质上都采用了设置( ii )

结果:

        如表1-2所示,我们观察到Flan-T5-XXL(+阈值)在其设置中获得了最好的F值。在NCITDOID子集上,它在f值上超过BERTMap 0.093,但在SNOMED - FMA ( Body )子集上,它分别落后于BERTMap和BERTMapLt 0.206和0.049。关于MRR,BERTMap在两个子集上都领先在Flan - T5 - XXL设置中,使用阈值提高了准确率,但降低了召回率。融入双亲/孩子情境并不能提升匹配结果- -这突出表明需要更深入地考察利用本体情境的策略GPT - 3.5 - Turbo4在给定提示下表现不佳。一个可能的原因是模型倾向于为其响应提供扩展的解释,这使得提取直接的“是/否”答案具有挑战性。此外,由于GPT - 3.5 - turbo不支持提取,因此没有给出排名分数。BERTMapLt的次优性能正如预期的那样,因为我们从提取的数据集中排除了可以字符串匹配的概念对,BERTMapLt依赖于编辑相似度得分。

4 结论与未来工作展望

        本研究提出了在零样本条件下对OM的LLMs的探索。在两个具有挑战性的OM数据集上的结果表明使用LLMs可以成为OM的一个有前途的方向,但需要解决各种问题,包括但不限于提示和整体框架的设计以及本体上下文的结合未来的研究包括完善基于提示的方法研究有效的小样本调节,以及探索结构信息的LLMs。从这些OM研究中收集的经验教训也可以为本体补全和嵌入等其他本体工程任务提供见解,并为更广泛地研究LLM与结构化数据的集成铺平道路。

创作不易,您的鼓励是我创作做大的动力!!!点个关注再走呗~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值