论文浅尝 | 神经网络与非神经网络简单知识问答方法的强基线分析

640?wx_fmt=png

来源:NAACL 2018

链接:http://aclweb.org/anthology/N18-2047

 

本文关注任务为面向简单问题的知识库问答(仅用KB中的一个事实就能回答问题)。作者将任务划分为实体检测,实体链接,关系预测与证据整合,探究了简单的强基线。通过基于SIMPLEQUEST IONS数据集上的实验,作者发现基本的LSTM或者GRU加上一些启发式方法就能够在精确度上接近当前最优,并且在没有使用神经网络的情况下依然取得相当不错的性能。这些结果反映出前人工作中,某些基于复杂神经网络方法表现出不必要的复杂性。


动机


近期的简单知识库问答工作中,随着神经网络模型复杂性的增加,性能也随之提升。作者认为这种趋势可能带来对网络结构有效性理解的缺失, Melis等人的研究也佐证了这一点。他们发现,标准的LSTM通过适当的调参,就可以得到堪比最新网络模型的性能。

从这一观点出发,作者尝试去除不必要的复杂结构,直到获得一个尽可能简单但是性能优异的模型


方法


实体检测(Entity Detection

实体检测的目标是确认问题相关的实体,可以抽象为序列标注问题,即识别问题中的每个字符是否是实体。考虑到涉及序列处理,采用RNN是相对流行的做法。

在神经网络策略上,作者以问句的词嵌入矩阵作为输入,在双向LSTMGRU上进行实验。(因为是构建baseline,作者并未在网络模型上添加CRF)

非神经网络方法则选用CRF(特征包括:词位置信息,词性标注,n-gram等等)

通过实体检测,可以得到表达实体的一系列关键词(字符)

 

实体链接(Entity Linking

作者将实体链接抽象为模糊字符串匹配问题,并未使用神经网络方法。

对于知识库中的所有实体,作者预先构造了知识库实体名称n-gram的倒排索引,在实体链接时,作者生成所有候选实体文本相应的n-gram,并在倒排索引中查找和匹配它们(策略是优先匹配较大粒度的n-gram)。

获取到可能的实体列表后,采用Levenshtein Distance进行排序筛选。

 

关系预测(Relation Prediction

关系预测的目标是确定问题所问的关系信息,作者将其抽象为句子分类问题。对于这个子任务,作者在神经网络方法分别尝试了RNNCNN两种。

RNNs:与实体检测类似,作者也采用双向RNNGRU构建模型,并仅依据隐状态作为证据进行分类,其他与目标检测模型一致。

CNNs:这里引用Kim等人(2014)的工作,简化为单通道,使用2-4宽度做特征映射。

非神经网络方法则采用了逻辑回归策略(Logistic Regression),特征方面选择了两组,其一是tfidfbi-gram,其二是词嵌入与关系词。

 

证据整合(Evidence Integration

该任务的目标是从前面生成的m个候选实体与n个关系中选出(m!=n)一个实体-关系组合。

作者首先生成m*n个候选组合,考虑到实体检测和关系预测是相对独立的模型,这意味着很多组合意义不大,可以做初步消除。

在组合打分策略上,考虑到知识库中相同的共享节点,比如所有姓名为“亚当斯密”的人,作者对出现频率过高的实体进行打分限制。


实验


对比实验基于 SIMPLEQUESTIONS数据集,并划分数据规模:训练集75.9K,验证集10.8K,测试集21.7K

作者进行了实体链接,关系预测和end2end问答三组实验:

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

从各组实验的结果可以发现,本文建立的基础结构模型所得到的baseline在三个任务中,均超过了部分较新的工作。


总结


实验结果有效验证了作者的观点,基本的LSTM或者GRU通过有效的调试,能够在精确度上接近当前最优,而非神经网络方法配合新的特征组合也能够取得相当不错的性能。

 

论文笔记整理:谭亦鸣,东南大学博士,研究方向为知识库问答、自然语言处理。


 

OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值