CrossAttention KBQA

最新推荐文章于 2024-04-25 10:40:17 发布

lzk_nus

最新推荐文章于 2024-04-25 10:40:17 发布

阅读量9k

点赞数

分类专栏： NLP Deep Learning 文章标签：深度学习计算机视觉神经网络

本文链接：https://blog.csdn.net/qq_42791848/article/details/122630149

版权

Deep Learning 同时被 2 个专栏收录

43 篇文章 4 订阅

订阅专栏

NLP

37 篇文章 6 订阅

订阅专栏

《An End-to-End Model for Question Answering over Knowledge Base with Cross-Attention Combining Global Knowledge》论文笔记

这篇文章于2017年发表在ACL上，个人认为是在MCCNNs这个模型的基础上所作的增量式的工作，两者结构非常相似。

Overview

本文的任务依然是给定一个问题，模型根据知识库生成一组答案。这篇文章也是属于IR-based的范畴，根据主题词从知识库中提取出topic graph，然后根据问题和答案各自的特征进行相似度匹配来得到最终的答案。

在这里插入图片描述

本文提出的模型叫做Cross-Attention，也就是将attention机制引入到问题-答案的匹配中。并且，本文还将全局的KB信息考虑进来，这个做法也对模型的效果起到了提升作用。总之，本文的contributions有如下两点：

提出了一个端到端的模型Cross-Attention，采用神经网络对问题和答案进行特征提取
充分利用全局的KB信息，以更精确地生成答案。同时，这也能缓解OOV（out of vocabulary）问题。

Method

Candidate Generation

对于候选答案的生成，本文采取的做法与MCCNNs一致，使用Freebase Search API，对于top1结果生成一张2-hop的候选答案图。候选答案实体集合记为 $C^{q}$

Neural Cross-Attention Model

接下来就是模型的主体部分。特征的提取依然是分为问题、答案两个部分，然后通过attention机制来计算相似度得分。

在这里插入图片描述

Question Representation

首先来看问题的编码。对于问题 $q\ =\ (x_1,x_2,\dots,x_n)$ ，作者首先用一个可训练的embedding层 $E_{w} \in R^{d \times V}$ 来获取word embedding。接下来，与MCCNNs不同的是，作者采用了双向LSTM对问题进行特征提取，那么对于每一时刻 $t$ 的问题token，我们能得到 $\overrightarrow{h_{t}}$ 和 $\overleftarrow{h_{t}}$ ，concatenate起来作为最终表示 $[\overrightarrow{h_{t}};\overleftarrow{h_{t}}]$ 。

Answer Representation

对于答案的特征学习，本文依然是考虑几个方面：答案entity $a_{e}$ ，答案relation $a_{r}$ ，答案type $a_{t}$ ，答案context $a_{c}$ 。接下来，作者没有人工构建这些特征，而是针对每一个aspect分别用一个可训练的参数矩阵来学习特征，得到的embedding分别记为 $e_{e},e_{r},e_{t},e_{c}$ 。但是有一个细节，context是有多个KB resources所共同组成的 $(e_{c_1},e_{c_2},\dots,e_{c_m})$ ，因此作者对所有resources取了个平均得到 $e_{e}\ =\ \frac{1}{m} \sum_{j=1}^{m}e_{c_{j}}$

Cross-Attention Model

得到问题和答案的特征以后，接下来就是cross-attention的部分。从cross这个词也能看得出来本文的attention计算是双向的，分为A2Q和Q2A两个反向。

Answer-to-Query Attention

对于答案的不同aspect，它应该对应问题中不同的单词。A2Q attention的计算公式如下：
$w_{ij}\ =\ f(W[h_{j};e_{i}]+b) \\ \alpha_{ij}\ =\ \frac{e^{w_{ij}}}{\sum_{j'}e^{w_{ij'}}}$
然后用attention weight来计算query的加权和
$q_{i}\ =\ \sum_{j=1}^{n}\alpha_{ij}h_j$
然后作者定义第 $i$ 个answer aspect与问题之间的相似度得分：
$S(q,e_i)\ =\ h(q_i,e_i)\ =\ q^T_ie_{i}$

Query-to_Answer Attention

对于不同的问题，它们也应该侧重于不同的answer aspect，Q2A的计算用到了上面所计算的相似度的得分。
$\bar{q}\ =\ \frac{1}{n}\sum_{j=1}^{n}h_{j}\\ w_{e_{i}}\ =\ f(W[\bar{q};e_{i}]+b)\\ \beta_{e_{i}}\ =\ \frac{e^{w_{e_{i}}}}{\sum_{j}e^{w_{e_{j}}}}\\$
然后用attention weight来计算每个问题与不同answer aspect相似度得分的加权和：
$S(q,a)\ =\ \sum_{e_i \in \{e_{e},e_{r}, e_{t}, e_{c}\}} \beta_{e_{i}}S(q,e_i)$
那么最终得到的这个 $S (q, a)$ 就是本文所提出的模型得到的最终的问题-答案之间的相似得分。可以看到这里的cross-attention并不是两个方向互相独立，而是递进的关系，先通过A2Q计算出问题与每个answer aspect之间的相似度，然后再用Q2A计算总的问题-答案相似度。

Training & Inference

本文所采取的训练方式与MCCNNs完全相同，先负采样，然后用Hinge Loss作为损失函数。inference的过程也和MCCNNs相同。

Combining Global Knowledge

接下来是本文的另一个创新点：补充全局知识。具体的做法是使用TransE模型来做Multi-task training，KB-QA和TransE的训练交替进行。由于Freebase实在太大，肯定不能把所有知识都考虑进来，因此作者先忽略掉所有完全不相关的信息，然后提取出问题中的所有实体，对每个实体在知识库中提取2-hop的信息来进行训练。训练的方式仍然是negative sampling + Hinge loss。

Experiment

在WebQuestions上的实验结果如下：

在这里插入图片描述

消融实验：

在这里插入图片描述

实验数据表明A2Q 的attention和Global Knowledge对模型效果的提升相对比较明显。

Analysis

在这里插入图片描述

作者也把attention进行了可视化，我觉得这个例子非常好，两个方向的attention都很好的捕捉到了正确的信息。比如where对应的是answer type， Carpathian对应answer entity， Carpathian mountain range是answer context的主体部分。

lzk_nus

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
CrossAttention KBQA

《An End-to-End Model for Question Answering over Knowledge Base with Cross-Attention Combining Global Knowledge》论文笔记这篇文章于2017年发表在ACL上，个人认为是在MCCNNs这个模型的基础上所作的增量式的工作，两者结构非常相似。Overview本文的任务依然是给定一个问题，模型根据知识库生成一组答案。这篇文章也是属于IR-based的范畴，根据主题词从知识库中提取出topic grap
复制链接

扫一扫

专栏目录