KaFSP: Knowledge-Aware Fuzzy Semantic Parsing for Conversational Question Answering over a Large-Sca

KaFSP: Knowledge-Aware Fuzzy Semantic Parsing for Conversational Question Answering over a Large-Scale Knowledge Base解读

论文名称发表会议源码地址原文地址
KaFSP: Knowledge-Aware Fuzzy Semantic Parsing for Conversational Question Answering over a Large-Scale Knowledge Base2022ACLtjunlp-lab/KaFSP (github.com)KaFSP: Knowledge-Aware Fuzzy Semantic Parsing for Conversational Question Answering over a Large-Scale Knowledge Base - ACL Anthology

摘要

在本文中,研究了在大规模知识库问答上的会话的两个问题
- 语法中定义的行为不足以解决现实场景中的不确定推理
- 知识基础信息未能充分利用,也没有被纳入语义解析中

为了解决上述两个问题,我们提出了一个knowledge-aware fuzzy semantic parsing framework (KaFSP)。它定义了模糊比较操作在基于不确定推理的语法系统中,这部分涉及了模糊集理论。

为了提高语义解析与知识库联系,我们从知识库导入知识感知实体消歧模块中合并了实体三元组,此外,我们提出了一个多标签分类框架,它不但可以捕获实体类型和关系之间的相关性,还可以从当前的话语中检测出相关的知识库信息。两种增强都是基于预训练的语言模型,在大规模对话式问答基准上的实验表明,提出的KaFSP比以前的最先进实现有了显著改进,在10个问题类型中的8分达到新的SOTA,获得了超过10%的改进

1 - 介绍

随着智能虚拟助手(例如Siri)的普及,大规模知识库的可用性如DBPedia、Wikidata、YAGO,基于知识库
knowledge bases(KB)的对话式问答引起了广泛的兴趣,它旨在通过从给定的知识图谱中检索答案来满足用户的信息需求,在多轮对话中问答用户的问题

在大规模KB上进行对话式QA无需显示语义解析即可实现(如,HERD-KVM,2021),大部分工作致力于上下文语义解析器,基于语义解析的方法通常将被投射成一个可执行的逻辑形式,传给对应的知识库中。早期的语义解析方法D2A(Guo,2018)遭受逐步误差传播问题,它被Masp(Shen,2019)改善,一种在多任务学习框架,它学习了pointer-equipped的语义解析和类型感知实体检测。最近的工作LASAGNE(Kacupaj,2021)进一步增强了Masp通过图注意力网络,利用了实体类型和实体类型之间的联系,其取得了SOTA在CSQA基准上(saha,2018)

尽管取得了上述进展,我们认为目前在大规模KB上进行对话式QA的语义解析方法仍然存在两个问题:
	1. 语法规则将问题映射为logical forms,虽然在D2A、Masp、LASAGNE中不断更新,但仍无法涵盖所有现实世界的情况。例如,在数字上的模糊推理,考虑问题:“Which nutrients can interact with approximately 89 chemical substances and drugs”,很难存在“approximately 89”这种语法
	2. 问题与知识的相互作用不足以消除实体歧义,冗余检测语义分析。例如,“Which educational institution is the alma mater of Pierre Lefebvre”,不使用相关KB的信息,语义很难分辨“Pierre Lefebvre”是否为法国军医或政治家,因为不止一个在KB中不止一个人叫“Pierre Lefebver”
	
针对这两个问题,我们提出了Knowledge-aware Fuzzy Semantic Parsing(KaFSP)模型来增强语法规则、KB同语义解析间的交互。特别的,我们在语法系统中引入了模糊运算,使系统能执行不确定性在数字上。这个更新有很大的影响在关于回答定量和比较问题上。为了让KB很好利用语义解析,我们引入了deep实体知识在所给的KB上,放入不同的语义解析框架的modules中。

论文的主要贡献:
- 在大规模对话QA上提出了Knowledge-aware Fuzzy Semantic Parsing(KaFSP)框架,这使得语法系统基于模糊集理论对不确定性推理进行建模,增强了KB和语义解析的交互同两个knowledge-aware模块
- 实验结果表明,在CSQA数据集上,我们的模型在10个问题类型中的8个取得了SOTA,
	注:CSQA是用于大规模复杂对话问题的最大数据集

2 - 相关工作

语义解析方法通常被用汉语Knowlege Base Question Answering(KBQA),早期的努力将自然语言问题解析为logical forms通过字典的解析器或相似性模型

近年来,语义解析方法发生了转变,从具有特征工程的传统统计模型 -> 神经方法,神经方法学习连续表示对于生成的logical forms,例如Dong(2016)用encoder-decoder框架配神经注意力机制来投射语义解析为Seq2Seq生成

随着KB越来越大,KBQA的语义解析的执行被逐步、模块化框架,Guo(2018)等人在问题中识别实体并将他们链接到给定的第一阶段的大规模知识图谱中,学习将实体链接问题映射为logical forms,Dong(2018)提出了coarse-to-fine-two-stage 解码方法为语义解析,对于一个问题,第一步对low-level features生成coarse草图,在从第一步的输出中编码为最终的logical form

stepwise方法面临错误传播的姐u但(例如从实体链接到映射,从coarse解析到fine解析),为了缓解这个问题,Shen(2019)和Kacupaj(2021)用了多任务学习框架去联合学习实体检测、链接、语义解析在当个模型中,Kacpaj(2021)用了图注意力网络探索了在KB中的实体类型和关系信息

由于多任务学习的优越性,在为KBQA定制的语义解析上,我们的工作也是基于多任务学习框架。但是,我们的模型是不同于现有的工作,在模糊语法规则和Knowlege-aware实体消歧于实体类型和关系预测上

3 - KaFSP

	我们使用了多任务学习框架去把input(与上下文连接的当前问题)映射为logical form,实体是被检测链接到给定的KB上,图1展示了KaFSP的结构,KaFSP的骨干网络遵循LASAGNE(Kacupaj,2021),由seq2seq网络组成,一个实体识别模块和一个图注意力网络模块,我们的贡献在于模糊语法,knowledge-aware 实体消歧模块,两个knowlegde-aware模块被展示在图1中的黑色虚线框
3 - 1 Fuzzy Grammar
	在为会话KBQA定制的语义解析方法中,语法伴随着最小数量的行为通常被定义为构造KB-executable logical forms(语义解析树)。在先前语法系统所定义的行为全是确定性的操作。然而,模糊的问题在现实世界中很常见,例如“How many wokrs of art did approximately the same number of people do the dubbing for as Another?”,这是以前确定性语法无法问答的,LASAGNE的语法包含了一个“approx”的行为,其目的是执行“approximately equal to”的操作。但是,两个数如何被测量为相等时没有被定义的,因此,我们以LASAGNE的语法做我们语法的开始,增加模糊行为使其适应现实世界的模糊问题,
表1总结了新的语法
	我们进一步给出了基于模糊集理论(Zadeh,1965)的对于增加的模糊行为的测量。对于数字a,我们定义了模糊集$A={x,u(x)|x∈R}$,u(x)时集合A的隶属函数,它表示x和a的相似程度。c∈R,当u(x)=1时,x和a严格相等。当u(x)=0时,x和a严格不相等
	阈值λ∈(0,1]可以得到三个模糊集合,方程式(1)中的所有参数且阈值λ可以灵活预定义,使得我们的语法可以调整导不同的模糊场景

3 - 2 Backbone Network

我们遵循多任务学习框架LASAGNE(Kacupaj,2021)去建立我们KaFSP的Backbone Network

  • Encoder and Decoder:整个网络的骨架是基于Transformer-based的encoder-decoder网络,输入x被编码,形式为LASAGNE,它由上一个问题、上一个问题的答案,当前问题之间的分隔符[SEP],一个特殊标记[CTX]被附加到输入中,用于对输入表示h_{ctx}^{enc}编码,被展示在图1上,编码器和解码器使用两层多头注意力Transformer块,可以表示为公式3

  • Entity Recognition:我们共同检测实体和他们的类型以BIO序列标记方式,标签为输入序列x在 O , B , I x T i 1 N t p {O,{B,I}x{T_i}_1^{N_{tp}}} O,B,IxTi1Ntp.T_i代表第i个实体类型标签,N_{tp}表示在KB上不同实体类型的数量,LSTM网络被堆叠在编码器上,用于执行序列标记任务,为了让序列标记任务的输出与logical forms兼容,我们遵循LASAGNE用了一个前馈层堆叠在LSTM层上,Entity Recognition的整个模块因此被认可表述如公式4

  • Graph Attention Network(GAT):我们跟随LASAGNE使用GAT模块来学习实体类型及其关系之间的相关性在KB上,可以定义如下

3 - 3 Entity Disambiguation

在大型KB上,不同含义的实体共享相同的表面形式,预测实体类型可能会有所帮助,但如果同表面同类型就再一次难区分了,为了解决这个问题,我们从KB中加入了更多摸棱两可的实体信息以消除它们的歧义

我们将实体消歧问题建模为二元分类问题公式6:

  • 整个输入x作为e的上下文
  • 为了定义K(e),我们使用在KB上与e相关的三元组,无论实体是主语还是宾语在三元组上,K(e)是KB三元组的有序集合,每个三元组的K(e)可以表示为(e_h,r,e_t),其中候选实体e是头实体(e_h)或尾实体(e_t)

在公式6中,函数f是分别消歧候选实体分类器,我们使用预训练的语义模型XLNet微调训练数据集作为分类器

为了将s、c、K(e)放入预训练和微调分类器上,我们重新组织它们为一个连接的文本序列,其中组件被标记“[SEP]”分隔,KB三元组都被实例化为相应的单词,e_h、r、e_t被空格分隔。我们用前3个三元组K(e)将其输入到分类器中,三元组按其ID排序,例如选择的是知识图谱覆盖率和实践中内存的消耗。若从KB中检索到的相关三元组的数目小于3,我们用候选实体来填写空的三元组

3 - 4 Type and Relation Prediction

​ 该模块主要实现了两个子任务:实体类型和关系的统一识别,正确实体的KB-guided预测,关系被堆叠在第一个子任务上,展示类别和关系的预测模块在图1上

​ 令G ⊆ E × R × E表示KB,其中E是实体集,R是关系集。每个实体e∈E有一个实体类型τ ∈ T(实体类型集合)

​ 我们将类型和关系识别作为多标签分类任务的子任务,用分类器去预测输出序列的概率

​ 我们从识别子任务的实体类型、实体关系得到了神经元表示,使用了预训练语言模型BERT。输入到BERT的输入是类似于实体消歧模块,不同的是我替换了不同类型的实体。形式上,实体类型的一个神经元表示e^τ被计算如下:

其中[CLS]表示我们用的前置人工[CLS]令牌作为实体类型τ的表示 , s(τ) 和 K(τ)表示了τ的表面形式和三元组,类似地,关系的的神经元表示e^r表示为

Kacupaj等人发现对实体类型和关系之间的相关性建模对于语义解析至关重要。在我们的KaFSP中,我们用了单分类器来预测实体类型和关系,而不是使用两个单独的没有共同信息的分类器(Shen 2019;Kacupaj 2021),因此我们分类器的预测空间是T∪R,实体和类型的相关被自然地捕获在同一个分类器中,我用Sigmoid函数输出概率:

​ 实体类型和关系的KB-guided 预测实际上是做出最终的预测在从KB中获得的相关信息,由于KB包含了大量与当前话语u相关的三元组,为了让知识图谱嵌入提供与u相关的信息,我们使用了输出概率从提出的多标签分类器查明相关信息从KB编码由GAT,特别的的我们计算了P(y{MLC}|x)和h{GAT}的Hadmard乘积

4 - 学习与推理

4 - 1 KaFSP Trainig

​ 在训练KaFSP之前,我们使用弱监督(仅最终答案)通过BFS获得训练集问题的golden standard logical forms,跟随Guo(2018)

​ 在KaFSP中,我们有6个子任务:

  • encoder-decoder(DEC)
  • entity recognition(ER)
  • filtering and permutation from LASAGNE(FP)
  • multi-label classification(MLC)
  • type and relation prediction(TRP)
  • entity disambiguation(ED)

我们用了mixed训练策略去训练这些子任务。前5个子任务以多任务学习的方式联合训练,最后一个子任务单独训练。采用这种策略的原因有两个:

  1. entity disambiguation是相对对立的子任务与其他子任务相比
  2. 我们微调了一个巨大的预训练语言模型XLNET(Yang,2019)在这个子任务上,直接将微调过程转换为多任务学习可能会使整个模型难以收敛
=
4 - 2 Grammar-Guided Inference

​ 表1中的语法定义指导了解码步骤,解码器生成一个混合行为和占位符的序列。占位符被特定的实体、类型、关系、数字来实例化。当没有非终结符剩余时logical form的解码过程将终止

​ 在解码后,我们用shift-reduce放去检查logical form序列去删除或修正错误的占位符

​ 一旦BIO标签和实体类型被识别,实体能从输入文本中定位,我们通过从KB中得到的实体范围倒排索引去得到实体候选列表,对于相关的实体类型过滤检索到的候选实体列表后,若还有多个候选实体,则激活实体消歧模块去计算候选实体的条件概率,选择概率最高的候选实体

​ 最后,我们使用关系和类型预测结构和消歧实体去实例化占位符得到最终的logical forms

5 - 实验

我们进行了实验和分析已验证提出的KaFSP的有效性

5 - 1 Experimental Settings
  • Dataset:CSQA数据集(Saha,2018),这是一个用于复杂顺序问答的标准数据集,包含200K个dialogures with 1.6M turns,和来自Wikidata的12.8M实体。其中153K、16K、28K对话分别被training、verification、test。这些问题涵盖大量的语言现象,如co-reference、ellipsis、reason
  • Evaluation Metrics:当答案由一个或多个实体组成,F1分数作为指标;当答案是布尔值或数字时,accuracy被用作指标,跟随(Guo,2018;Shen 2019;Kacupaj 2021),计算了每个评估指标下所有类型问题的总分
  • Baselines:将KaFSP与CSQA上5个最先进的SOTA baseline进行比较
    • HRED+KVM(Saha,2018),它将RED模型与键值记忆网络相结合
    • D2A(Guo,2018)
    • MaSP(Shen,2019)
    • KISP(Thirukovalluru,2021)
    • LASAGNE(Kacupaj,2021)
5 - 2 Results

5 - 3 Ablation Study

6 - 结论

在本文中,我们提出了一个知识感知模糊语义解析框架 KaFSP,用于在大规模知识库上进行对话式问答。 KaFSP 基于模糊集理论定义了语法中的模糊比较动作,以覆盖近似比较推理。 除此之外,我们在 KaFSP 中提出了两个知识感知组件,以整合来自知识库的信息,用于实体消歧和实体类型和关系预测。 实验结果表明,KaFSP 明显优于所有以前的 state-of-the-art 模型,在 CSQA 数据集的 10 种问题类型中的 8 种设置了新的 SOTA 结果,并首次在 3 种问题类型中实现超过 90% 的 F1 或准确率

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值