Retrieve and Re-rank: A Simple and Effective IR Approach to Simple Question Answering over Knowledge Graphs 论文解读
本篇论文是18年的EMNLP的一篇paper主要用在kbqa领域,本文章首先介绍他的详细步骤,最后再介绍该文章的创新点
一、详细步骤
1. Solr + BM25
第一步基于query和KB(knowledge base)通过solr和BM25检索出200个相似度最高的三元组事实,第一步的相似度score分由下面公式①(可在文末看相应的详细解释)给出:
2. candidate re-ranking
Re-rank模型的网络结构TSSHCNN如下:
(1)Input
(2)Convolution
(3)Max-pooling
(4)Concat+FCL
(5) loss function
(1)从图中可以看出有三种input分别是Q(question)、tuple、Q+tuple
(2)CNN,文中给出CNN是孪生网络(即卷积核参数共享),至于卷积的具体措施没有给出(textcnn还是传统的类似2*2卷积核等等)
(3)Max-pooling 是指每个颜色通道提取出一维的数吗?文中感觉给的还是粗燥
(4)Concat + 全连接感觉没啥说的
(5)Loss function 是 ranking loss
二、创新点
- 本文抛弃了传统的先NER再relation mapping的思路,而是用了一种类似端到端的思路,并且用了SOLR+BM25来进行初步选择
- 将答案加入到模型中去(不是关系匹配,而且直接将整个三元组作为匹配的对象),充分考虑到了答案的语义
- 有种扩充负样本数据集的思想在里面
①BM25 https://blog.csdn.net/weixin_41090915/article/details/79053584
② paper:https://www.aclweb.org/anthology/W18-5504/