【论文笔记】Question Answering with Subgraph Embeddings

最新推荐文章于 2022-03-19 11:00:24 发布

Lawe

最新推荐文章于 2022-03-19 11:00:24 发布

阅读量2.5k

点赞数 1

分类专栏：论文笔记 Question Answering 文章标签： KBQA 向量建模问答系统

本文链接：https://blog.csdn.net/LAW_130625/article/details/78409742

版权

一、概要
该文章发于EMNLP 2014，作者提出了一个基于Freebase，根据问题中的主题词在知识库中确定候选答案，构建出一个模型来学习问题和候选答案的representation，然后通过这些representation来计算问题和候选答案的相关度来选出正确答案，在不适用词表、规则、句法和依存树解析等条件下，超越了当时最好的结果。

二、模型方法
2.1 数据简介
假设每给一个问题都含有相应的回答，并且在知识库中存在结构化的答案，本文使用了WebQuestions数据集以及Freebase知识库。除此之外，作者还剔除了Freebase中包含出现频率低于5次实体的三元组，得到一个知识库子集，其中包含了14M个三元组、2.2M个实体和7K关系，然后基于每一个三元组，（例如：subject,type1.type2.predicate, object），通过自动化的方式生成问题答案对：Quesiton：“What is the predicate of the type2subject?” Answer：object。例如：

Quesiton：What is the nationality of the person barack obama?”Answer：united states)
另外作者根据前人的做法，基于在ClueWeb上提取到的2M个三元组(例如：subject, “text string”, object)，通过简单的模板将三元组变换为问题，例如：Where barack obama was allegedly bear in?” (hawaii)。基于这些方法，作者扩建到了一个新的数据集。同时构建的部分数据不是真实数据，为了使得训练的模型更加贴近真实数据，作者在WikiAnswers中提取了2.2M个问题，然后把这些问题350k个类，后面训练模型时也使用这些数据进行训练，因为每一类的问题意思是相近的，所以我们的目的是训练的模型得到想同类的问题之间评分尽可能的高。

2.2 Embedding Questions and Answers
本文的目的是通过模型学习问题中出现的单词和Freebase的实体和关系类型映射到低维的Embedding，使得问题和相应的答案在联合Embedding空间中彼此接近。
假设存在问题q以及候选答案a，假设模型学到了它们的representation后，那么我们可以通过函数 S(q,a)来计算它们的得分，如果它们是匹配的，那么分数则高，反之则低，计算方式如下：

S(q,a)=f(q)⊤g(a) $S(q, a) = f(q)^{⊤}g(a)$
其中q和a都是由单词或者符号组成，假设存在矩阵

W∈Rk×N $W∈ R^{k×N}$ ，k为embedding的维度大小，

N=N

最低0.47元/天解锁文章

Lawe

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
【论文笔记】Question Answering with Subgraph Embeddings

该文章发于EMNLP 2014，作者提出了一个基于Freebase，根据问题中的主题词在知识库中确定候选答案，构建出一个模型来学习问题和候选答案的representation，然后通过这些representation来计算问题和候选答案的相关度来选出正确答案，在不适用词表、规则、句法和依存树解析等条件下，超越了当时最好的结果。
复制链接

扫一扫