本文是发表在 ACL2017 上的一篇论文,
(1)Document Retriever:基于二元语法哈希(bigram hashing)和TF-IDF匹配的搜索组件对于给出的问题,有效地返回相关的文档
(2)Document Reader:多层RNN机器阅读理解模型,在(1)所返回的文档中查找问题答案的所在。
(3)Document Retriever
结合 TF-IDF 加权的词袋向量和 Bigram 去表示每一个问题(Question),然后用这个表示(representation)去召回最相关的五篇文章。采用有效的(非机器学习式的)文档检索系统,初步缩减查找范围并只读取那些可能的相关文章。一个简单的倒排索引再加上检索词向量模型打分就能在此类问题上表现良好。文章和问题被表示为带着TFIDF权重的词袋向量,实验表明,又使用考虑了局部词序的2元特征对系统进行了改进。此部分返回五篇与问题最相关的五篇文章。这些文章将会在下一个document reader的部分中被处理。
(4)Document Reader
给定一个问题q,由l个tokens组成 {
}。有n个段落的文档或文档集,每个段落p由m个tokens组成{
},使用RNN模型将依次对每一个段落进行处理,最后综合预测答案 。模型是这样工作的:
a.段落编码:
首先将段落p当中的所有tokens
表示为特征向量的序列
,将它们作为输入传入RNN网络中
(1).word embeddings:
使用300维的Glove词向量。保留大部分预训练词向量固定,只微调的1000个最常见的问题词,因为一些关键字,比如what,how,which等等可能是QA系统的关键。
(2)Exact match:
使用三个简单的二元特征来表示
是否精确匹配q中的疑问词,无论是原字母、大小写字母还是引理形式。这个简单的特征将在之后的试验中证明非常有用。
(3)Token features:
加入一些人工特征反映token
在上下文中的特性。包括词性,命名实体识别,和TF。
最后一部分是对齐问题嵌入。Attention的权重
捕捉到了
与每一个疑问词
之间的相似性。具体说来,权重是由词向量的非线性映射点乘得来。
b.问题编码:
问题编码简单一些,在问题词的词向量上采用另一个RNN,并将隐藏单元的输
c.预测:
在段落层级上,我们的目标是预测正确答案所在的span(跨度)。
出组合成一个向量

3120

被折叠的 条评论
为什么被折叠?



