题目: PullNet: Open Domain Question Answering with Iterative Retrieval on Knowledge Bases and Text
来源: EMNLP 2019
链接: https://arxiv.org/pdf/1904.09537.pdf
Introduction:
如今开放域问答的一个主流方法,利用维基百科和结构化知识图谱两者的结合来完成问答。目前比较好的思想是早期融合(early fusion)和后期融合(late fusion)的模型,并且已知前者是优于后者的。
然而,这些模型(主要指早期融合(early fusion)的GRAFT-net,这也是该作者的前一篇优秀工作,已有其它人对此工作进行解读-参考)在抽取子图时都是采用启发式规则的检索方法,该法并不显得智能化,会产生一些与答案无关或者答案无需利用到的子图。
而本文关注的重点就在于“学会自主检索”,即让模型自己懂得该(从 K B KB KB、文本语料)检索什么。文本称此为 “ P u l l ” “Pull” “Pull”操作。
自然地,另一个重点就在于“如何更好地组合这些异构信息”为单个数据结构来更好的推理出答案。
Contribution:
- 本文提出新的思想“Pull”,能够智能化扩充问题子图,即自主学习利用此操作抽取得问题相关的子图;
- 组合前一步得到的异构信息”,更新子图,最后利用GCN对节点进行表示学习,进而分类判断是否答案。
Model:
任务介绍:
给定问题 q q q,模型从知识图谱和文本语料两类知识源中检索得相关信息,构建出能用以回答的问题子图。
G n = { ν , ε } G_n=\{\nu, \varepsilon \} Gn={ ν,ε}:问题 q q q的子图,也称为异构图,包含了与问题相关的文本语料和知识图谱的信息。 ν \nu ν为节点集合。
ν = ν e ∪ ν d ∪ ν f \nu=\nu_e \cup \nu_d \cup \nu_f ν=νe∪νd∪νf:其中 ν e \nu_e νe为实体节点集, ν d \nu_d νd为文本节点集, ν f \nu_f νf为事实节点集
单个实体节点: v e ∈ ν e v_e \in \nu_e ve∈νe,源自 K B KB KB
单个文本节点: v d = { w 1 , . . . , w ∣ d ∣ } v_d=\{w_1, ..., w_{|d|}\} vd={ w1,...,w∣d∣}, v d ∈ ν d v_d \in \nu_d vd∈νd,在本文中单个句子即为一个文本,源自Text Corpus
单个事实节点: v f = ( v s , r , v 0 ) , v f ∈ ν f , { v s , v 0 } ∈ ν e v_f = (v_s, r, v_0), v_f \in \nu_f, \{v_s,v_0\} \in \nu_e vf