©PaperWeekly 原创 · 作者|舒意恒
学校|南京大学硕士生
研究方向|知识图谱
开放域问答的研究已经从复杂流水线系统进化到端到端深度神经网络。其中一些方法利用知识库中的信息进行作答,另一些特殊的方法通过融合知识库和文本信息二者进行作答。本文旨在回顾近年来开放域知识库问答或知识库-文本融合问答的重要工作。
本文介绍近年来几篇知识库问答的工作,包括 Graft-Net、Pull-Net 和 EmbedKGQA 等工作,并简单描述了知识库问答领域常见的数据集。
Graft-Net
论文标题:Open Domain Question Answering Using Early Fusion of Knowledge Bases and Text
论文来源:EMNLP 2018
论文链接:https://arxiv.org/abs/1809.00782
代码链接:https://github.com/OceanskySun/GraftNet
知识库和文本作为问答系统的数据源,各有优劣。前者的覆盖范围小,而利用信息的难度较低;后者的覆盖范围更大,而利用信息的难度更高。
Graft-Net 将 QA 任务转换为异构图上节点的分类任务执行,异构图中既包含来自于知识库的节点,也包含来自于文本的节点。
一些基于图传播的模型学习节点表示,然后执行节点分类,通过分类任务完成 QA。这类方法的基本过程是:
1. 初始化结点表示
2. 对于 ,更新结点表示
其中, 表示 的关系为 邻居, 是神经网络层。
是模型的层数,对应于信息在图中传播路径的最大长度。传播完成后,最终层的表示 被用于执行目标任务,例如知识库中的链接预测。
但是,作者的设定与之前的基于图的分类任务有两处不同:
第一个不同,图 包含异构结点。图中的某些节点对应于代表符号对象的 KB 实体,而其他节点则代表文本文档,它们是一段长度不定的文本序列。
第二个不同,在自然语言问题 上限制图中节点的表示。
1.1 结点初始化
对应实体的结点使用通过固定长度的向量进行初始化