DrQA系统解析-CSDN博客

本文链接：https://blog.csdn.net/qq_42791848/article/details/122444686

Reading Wikipedia to Answer Open-Domain Questions

本文是一篇很经典的关于开放领域问答的文章，与之前的几篇文章不同，开放式领域的问答系统是基于一种Retriever-Reader的架构，Retriever通过大规模机器阅读理解提取相关度高的文章，再用Reader进行特征提取。

Overview

本文的开放式QA系统有两个部分组成：

Document Retriever：作者使用Wikipedia作为资料库，针对不同的问题进行相关文章段落的提取，提取出文章后再构建数据集输入到Reader中进行训练
Document Reader：这一模块就是DrQA的模型部分，使用神经网络进行机器阅读理解

下图是一个开放领域问答的基本流程图

在这里插入图片描述

DrQA

本文提出的open-domin QA system叫做DrQA，分为两个独立的子系统：Retriever和Reader

Document Retriever

Document Retriever模块是针对每个问题从Wikipedia提取出相关文章，作者采用了TF-IDF相似度匹配，加上bigram的hash，用top 5作为该问题的候选文章。实验数据表明本文的这个retriever比Wikipedia的搜索引擎效果好了不少，尤其是加入了bigram hashing以后。

在这里插入图片描述

Document Reader

Reader又分为以下几个子模块：

Paragraph Encoding

作者使用的是多层的LSTM进行文本特征提取，得到LSTM embed过后的文本表示
$\{p_1,p_2,\dots,p_n\}\ =\ LSTM(\{\hat{p_1},\hat{p_2},\dots,\hat{pn}\})$
值得注意的是，作者在LSTM的输入上下了不少功夫，每个单词的初始embedding $E(p_i)$ 由以下几个部分构成：

word embedding： $f_{emb}(p_i)$ ，这里采用的是Glove 300d
exact match： $f_{excat\_match}(p_i)$ ，用三个binary feature来表示该单词是否与问题中的某个单词匹配
token feature： $f_{token}(p_i)$ ，这个特征包含三个子特征 $POS(p_i),NER(p_i),TF(p_i))$
question aligned feature：这一部分其实就是P2Q的attention， $f_{align}(p_i)\ =\ \sum_{j} \alpha_{i,j}E(q_j)$ ，而attention weight的计算方式为： $\alpha_{i,j}\ =\ \frac{exp\{\alpha(E(p_i)) \cdot \alpha(E(q_j))\}}{\sum_{j'}exp\{\alpha(E(p_i)) \cdot \alpha(E(q_j'))\}}$

Question Encoding

question encoding依然是采用LSTM，得到输出 $\{q_1,q_2,\cdots,q_m\}$ 后，再通过一个self-attention映射到一个vector $q$
$\beta_{j}\ =\ \frac{exp(w \cdot q_j)}{\sum_{j'}exp(w \cdot q_{j'})}\\ q\ =\ \sum_{j=1}^{m}\beta_{j}q_j$