Learning Recurrent Span Representations For Extractive Question Answering

最新推荐文章于 2023-09-26 10:22:18 发布

ryanloucc

最新推荐文章于 2023-09-26 10:22:18 发布

阅读量1.3k

点赞数 1

分类专栏： NLP Related

本文链接：https://blog.csdn.net/u014300008/article/details/53155559

版权

NLP Related 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

关键词

span representation

来源

arXiv 2016.10.31

问题

之前利用 match-LSTM 对 passage 打标签：要么是 span start，要么是 span end，要么是 end。这种方法对子结构并没有做独立性假设，所以在 greedy training 和 decoding 时容易产生搜索错误。

而直接枚举所有 span 可能，这会导致难以训练。

为了克服这些问题，文中提出构建固定长度表示的 span representation，并且为公共子结构重复利用 recurrent 计算结果。

文章思路

Recurrent Span Representations 这一模型分成三步：

模型图示

首先通过 look up table 得到 passage 和 question 中每个词的 pretrain embedding： $p_i$ 和 $q_j$

Question-Focused Passage Word Embedding

利用 Parikh et al.(2016) 提出的 neural attention 计算 passage-aligned question representation

s i j = F F N N (p i) \cdot F F N N (q j) a i j = e x p ( s i j ) \sum n k = 1 e x p ( s i k ) q a l i g n = \sum j = 1 n a i j q j

$s_{ij} = FFNN(p_i)\cdot FFNN(q_j) \\ a_{ij} = \frac{\mathrm{exp}(s_{ij})}{\sum^n_{k=1}\mathrm{exp}(s_{ik})} \\ q^{align} = \sum^n_{j=1}a_{ij}q_j$
然后利用 Li et al.(2016) 计算 passage independent question representation

q' 1, \dots, q' n = B I L S T M (q) s j = w q \cdot F F N N (q' j) a j = e x p ( s j ) \sum n k = 1 e x p ( s k ) q i n d e p = \sum j = 1 n a j q' j

${q^\prime_1,\ldots,q^\prime_n} = \mathrm{BILSTM}(\mathbf{q}) \\ s_j = w_q\cdot FFNN(q'_j) \\ a_j = \frac{\mathrm{exp}(s_j)}{\sum^n_{k=1}\mathrm{exp}(s_{k})} \\ q^{indep} = \sum^n_{j=1}a_jq'_j$
基于以上，可以得到这一步最终 embedding：

p∗=[pi,qaligni,qindep] $p^*=[p_i,q^{align}_i,q^{indep}]$

Recurrent Span Representations

这一步很简单，就是先将上面得到的结果经过 Bi-LSTM 处理后，然后把 span 端点的词拼接起来得到 span representation

ha $h_a$ ：

{p *' 1, \dots, p *' m} = B I L S T M ({p * 1, \dots, p * m}) h a = [p *' a s t a r t, \dots, p *' a e n d]

$\{p^{\ast\prime}_1,\ldots,p^{\ast\prime}_m\}=\mathrm{BILSTM}(\{p^{\ast}_1,\ldots,p^{\ast}_m\}) \\ h_a = [p^{\ast\prime}_{a_{start}},\ldots,p^{\ast\prime}_{a_{end}}]$

Scoring Answer Spans

对所有的 span representation 打分

s a = w a \cdot F F N N (h a) p (a | q, p) = e x p ( s a ) \sum a ' \in A ( p ) e x p ( s a ' )

$s_a = w_a \cdot \mathrm{FFNN}(h_a) \\ p(\mathbf{a}|\mathbf{q},\mathbf{p}) = \frac{\mathrm{exp}(s_\mathbf{a})}{\sum_{\mathbf{a}^\prime\in A(\mathbf{p})}\mathrm{exp}(s_{\mathbf{a}\prime})}$

资源

论文地址：https://arxiv.org/abs/1611.01436
数据地址：https://rajpurkar.github.io/SQuAD-explorer/

简评

这一模型最终在 development set 上获得了 74.9% 的 F-score，ensemble 之后提高到了 76.7%。之后分析了一下模型细节，如果只用 passage-independent 表示，效果大概会降低 20 个点；如果只用 passage-aligned 表示，效果只会降低 3 个点。

模型利用任务简单性，枚举出所有 span 候选，发现当 span 长度增大时，模型效果呈下降趋势。

最后指出模型的一个缺点：能够找到文章和问题重叠的短语作为答案，但是不能够表示语义依赖性。这种缺点也是直接计算相似度这种方法的共有缺点。