[论文阅读笔记19]Scalable multi-hop relational reasoning for knowledge-aware question answering

1. 题目

知识感知问答的可扩展性多跳关系推理模型
Feng Y, Chen X, Lin B Y, et al. Scalable multi-hop relational reasoning for knowledge-aware question answering[J]. 2020.emnlp-main.99
链接:https://arxiv.org/pdf/2005.00646.pdf
GitHub项目地址:https://github.com/INK-USC/MHGRN

2. 作者

Yanlin Feng♣∗ Xinyue Chen♠∗ Bill Yuchen Lin♥
Peifeng Wang♥
Jun Yan♥ Xiang Ren♥
fengyanlin@pku.edu.cn, xinyuech@andrew.cmu.edu,
{yuchen.lin, peifengw, yanjun, xiangren}@usc.edu
♥University of Southern California 南加利福尼亚大学
Peking University ♠ 北京大学
Carnegie Mellon University 内基梅隆大学

3. 摘要

MHGRN:multi-hop graph relation networks
解决问题:把外部知识图谱的知识加入到问答中;
提出方法模型:知识感知方法,multi-hop graph relation networks(MHGRN);基于路径的推理方法与图神经网络相结合,具有更好的可解释性和可扩展性;
效果:SOTA 76.5% 在CommonsenseQA数据集;

4. 背景陈述

知识感知QA例子:

image-20210223120408926

把知识图谱加入到QA中,为问答的解释与可信预测提供了可能。 例如:CHILD → AtLocation → CLASSROOM → Synonym → SCHOOLROOM

一种最直接使用KG的方法:直接对KG的关系路径进行建模。例如KagNet,MHPGM等。优点:可解释;缺点:难扩展(可能的路径随节点呈多项式与指数增长)。即时间复杂度还是比较高的。所以为了克服这个问题,有些模型只使用一跳路径来完成模型。

image-20210223140712499

解决可扩展性问题,GNN是一个很好的方法,一般采用它的变种来解决。

==MHGRN:Multi-hop Graph Relation Network, 把基于路径模型与GCN相结合;==继承了基于路径的好的解释性与GCN的好的扩展性。

主要动机是在单层内执行多跳消息传递,以允许每个节点直接参与它的多跳邻居,实现多跳关系推理。

5. 问题形式化及模型概况

论文把任务范围限定在选择题问答上。

image-20210223150837134

给定外部知识图(KG)作为知识源和问题q目标是从一组给定的选择中找出正确的答案

模型转化为测量问题q和每个答案选择a∈C之间的合理性得分模型。

由上面图可以看到,这里使用到了图与文本的编码器

6. 多关系图编码方法

多关系图编码的两大类:

分类1:使用GNNs的图编码;

通过直接在图结构上传播信息来编码图结构;

名称论文方法
message passingICML 2017 - Neural message passing for quantum chemistry
GCNsICLR 2017–Semisupervised classifification with graph convolutional
RGCNsESWC 2018-Modeling relational data with graph convolutional networks

带有上标的hi的编码公式(一个典型的GCN通过passing messages来完成学习表示):

image-20210224092702853

h_j表示第j个节点的属性信息;

W_r为学习权重;

N_r_i表示在关系r下的第i个邻居;

然后一个图可以经过池化编码为:

image-20210224093109992

分类2:基于路径模型的图编码;

首先把图分解成路径,然后池化来实现编码。

名称论文方法
Relation Networks (RNs)2017-A simple neural network module for relational reasoningimage-20210223153903603
KagNetEMNLP-IJCNLP 2019-KagNet: Knowledge-aware graph networks for commonsense reasoning采用LSTM去编码,然后通过注意力机制聚合所有路径嵌入。image-20210223160246954

Relation Networks (RNs) 的图表示(把节点与边向量并成一个长的向量输入到全连接来编码):

image-20210224093454105

KagNet的图表示(输入为路径序列,LSTM模型来编码):

image-20210224093631869

7. Multi-Hop Graph Relation Network (MHGRN)

整个MHGRN框架结构:

image-20210223164458132

7.1 Type-Specifific Transformation

类型经过线性转换。这里对类型编码

image-20210223170927556

7.2 Multi-Hop Message Passing

赋予GNNs直接建模路径的能力;

K跳关系有效路径定义为:

image-20210223171610191

对于这些路径进行信息传播时, RGCNs的单跳信息传播的一般化形式:

image-20210223175029077

W_t_r是表示t跳r关系的学习训练的参数;

a表示关注力网络计算出来的;

d表示a的标准化因子。

通过关注力机制对不同长度的路径进行聚合作为信息的输入,如下的聚合:

image-20210223175211881

7.3 非线性激活

经过激活函数之后,完成节点的嵌入:

image-20210224092119268

7.4 关注力权重的计算

权重的计算采用概率图模型来建模,时间复杂度比较O(m^k)好:

image-20210224092157684

例如可以采用条件随机场来计算:

image-20210224100756519

f(▪),δ (▪),g(▪)被两层MLP参数化;

τ(▪)是mxm的转移矩阵;

β(▪)建模了k跳关系的权重;

γ(▪)建模了从节点类型φ(j)到φ(i)信息权重;

时间复杂度分析:

image-20210224102146728

7.5 学习,推理,路径解码

首先通过关注力池化答案实体输出的节点嵌入,获取图表达;

然后把文本表达s与上面的图表达作级联,最后计算分数:image-20210224102943771

在学习训练时,损失函数为通过最小化交叉熵来达到最大化正确答案的合理分数值的目标:

image-20210224103048281

在推理阶段:image-20210224103239419

8. 实验

8.1 从外部KG抽取出目标的子图g

外部知识图谱:ConceptNet (2017- Conceptnet 5.5: An open multilingual graph of general knowledge)

主要是参考了KagNet中的方法。

预处理----合并了关系类型来提高图的密度;增加反向关系去增加多跳;

image-20210224104331265

抽取步骤:从句子s中识别实体的mentions; 然后把这些实体在ConceptNet进行实体链接;把找到的实体保存在一个集合中。这里不做修剪,而是保留所有边去构建g.

8.2 数据集

CommonsenseQAOpenBookQA

8.3 对比的方法

RGCN (Schlichtkrull et al., 2018);

GconAttn (Wang et al., 2019);

KagNet† (Lin et al., 2019);

另外,也对预处理的语言模型作微调。

8.4 实验结果

8.4.1 对于CommonsenseQA数据集实验

这是内部实验分割来处理的。【in-house split】

image-20210224105617758

offificial split】的结果:

image-20210224113606061

8.4.2 对于OpenbookQA数据集实验

【offificial split】,文件编码采用ROBERTA-LARGE,

image-20210224113800587

8.5 性能分析

8.5.1 Ablation Study on Model Components

这里做了一个消融研究,看看取消掉一些模块后性能有没有影响。

image-20210224114038079

这里可以看出Type-specific transformation与Structured relational attention两部分还是比较关键的。

8.5.2 训练数据对训练结果的影响

image-20210224140345191

GRN模型具有稳定性,可以认为与数据无关性。

8.5.3 跳数K的影响

image-20210224141155182

当K>3时,性能反而有所下降。

8.5.4 模型的扩展性

image-20210224141420507

与K相关的线性时间。

8.5.5 模型解释性

image-20210224141559176

还是有好的解释性。

9. 相关工作

9.1 NLP的知识感知方法

抽取结构知识的方法

方法论文描述
nodes2017-Leveraging knowledge bases in LSTMs for improving machine reading;2019-Improving natural language inference using external knowledge in the science questions domain
triples2017-Dynamic integration of background knowledge in neural nlu systems;2018-Knowledge able reader: Enhancing cloze-style reading compre hension with external commonsense knowledge
paths2018-Commonsense for generative multi-hop question answering tasks;2019-Exploiting explicit paths for multi-hop reading comprehension;2019-KagNet: Knowledge-aware graph networks for commonsense reasoning
subgraphs2015-Answering elementary science questions by constructing coherent scenes using background knowledge.

预训练语言模型

方法1:在大规模普通域数据集或富知识文件上进行微调语言模型;

方法2:通过信息检索技术为语言模型提供证据;

缺点是这些方法不能提供好的推理过程及证据,故很难让人信服。

9.2 神经图编码

方法论文描述
GAT2018-Graph attention networks带有关注力机制;
RGCN2018 - Modeling relational data with graph convolutional networks提出相关信息传播;
K-hop neighbors2019-Mixhop: Higher-order graph convolutional architectures via sparsifified neighborhood mixing;2019-k-hop graph neural networks

10. 总结

提出了MHCRN,结合了GNN与基于路径推理的优点。

整体感觉,研究的内容很多,理论性也特征别的强。感觉还需要进一点的消化。

参考:

【1】EMNLP2020 | 基于知识库的多跳关系推理,
https://mp.weixin.qq.com/s/uYi57h14y8z5onnAY9cc_g

happyprince,https://blog.csdn.net/ld326/article/details/114049909

w.r.t. : with respect to 的缩写。是 关于;谈及,谈到的意思。

i.e. :也就是,亦即(源自拉丁文id est),换而言之

cf. 参考

s.t. 服从,满足 ,受约束于

e.g. 例如

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值