【论文笔记】Question Answering with Subgraph Embeddings

一、概要
  该文章发于EMNLP 2014,作者提出了一个基于Freebase,根据问题中的主题词在知识库中确定候选答案,构建出一个模型来学习问题和候选答案的representation,然后通过这些representation来计算问题和候选答案的相关度来选出正确答案,在不适用词表、规则、句法和依存树解析等条件下,超越了当时最好的结果。

二、模型方法
2.1 数据简介
  假设每给一个问题都含有相应的回答,并且在知识库中存在结构化的答案,本文使用了WebQuestions数据集以及Freebase知识库。除此之外,作者还剔除了Freebase中包含出现频率低于5次实体的三元组,得到一个知识库子集,其中包含了14M个三元组、2.2M个实体和7K关系,然后基于每一个三元组,(例如:subject,type1.type2.predicate, object),通过自动化的方式生成问题答案对:Quesiton:“What is the predicate of the type2subject?” Answer:object。例如:

Quesiton:What is the nationality of the person barack obama?”Answer:united states)

  另外作者根据前人的做法,基于在ClueWeb上提取到的2M个三元组(例如:subject, “text string”, object),通过简单的模板将三元组变换为问题,例如:Where barack obama was allegedly bear in?” (hawaii)。基于这些方法,作者扩建到了一个新的数据集。同时构建的部分数据不是真实数据,为了使得训练的模型更加贴近真实数据,作者在WikiAnswers中提取了2.2M个问题,然后把这些问题350k个类,后面训练模型时也使用这些数据进行训练,因为每一类的问题意思是相近的,所以我们的目的是训练的模型得到想同类的问题之间评分尽可能的高。

2.2 Embedding Questions and Answers
  本文的目的是通过模型学习问题中出现的单词和Freebase的实体和关系类型映射到低维的Embedding,使得问题和相应的答案在联合Embedding空间中彼此接近。
  假设存在问题q以及候选答案a,假设模型学到了它们的representation后,那么我们可以通过函数 S(q,a)来计算它们的得分,如果它们是匹配的,那么分数则高,反之则低,计算方式如下:

S(q,a)=f(q)g(a)

  其中q和a都是由单词或者符号组成,假设存在矩阵 WRk×N ,k为embedding的维度大小, N=N
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值