bi-lstm

最新推荐文章于 2024-07-15 21:34:18 发布

StellaLiu萤窗小语

最新推荐文章于 2024-07-15 21:34:18 发布

阅读量468

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/anqi3776/article/details/112167240

版权

笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

bi-lstm

attention over attention的问题，优化的点

首先将文档D和问题Q转化为one-hot向量，然后将one-hot向量输入embedding层，这里的文档嵌入层和问题嵌入层的权值矩阵共享，通过共享词嵌入，文档和问题都可以参与嵌入的学习过程，然后使用双向GRU分别对文档和问题进行编码，文档和问题的编码都拼接正向和反向GRU的隐藏层输出，这时编码得到的文档和问题词向量都包含了上下文信息。计算过程如图所示：
文档的Contextual Embedding表示为h_doc，维度为|D| * 2d，问题的Contextual Embedding表示为h_query，维度为|Q| * 2d，d为GRU的节点数。

在这里插入图片描述

比起单层的话双向GRU会使得编码得到的文档和问题词向量都包含了上下文信息

是的，但是这个GRU的网络结构嘛，attention是应用在哪里了呢？

主要是用来衡量问题与候选答案的内容匹配程度。计算反向注意力，即对于时间 t 的每一个答句，我们计算出问句中单个词的重要性，以指出给定单个答句时, 问句中哪个词更重要。我们先对矩阵的每一列做 softmax 归一化，从而得到问题到答案的注意力矩阵;再计算反向注意力，即对匹配矩阵的每一行做 softmax 归一化，获得答案到问题的注意力矩阵, 并按列求平均，获得一个注意力向量。最后，我们计算正反注意力的点积，这样便得到注意力汇聚向量。利用这种方法，每个问句词组对答案的重要程度可以明确地获知。注意力汇聚向量的分量表达了其对应位置的答句与问句的匹配程度，将分量值作为匹配分数，通过多次实验确定最佳阈值，将匹配分数和阈值进行比较，从而得出结果标签。

普通模型仅考虑应用简单的启发式方法(如求和或求平均) 来将得出注意力不同

在这里插入图片描述

我们得到了回答到问题级别的注意力 α 和问题级别的注意力 β,其中 1 到 9 为答句候选集中语句标号，通过汇聚表明答句 5,6 和 9 的是有关答句的可能性较高。
s = αT β
在时间 t 查看问句词组时，计算每个独立文档等级 α(t) 注意力的加权总和。通过这种方式，问句中的每个词的贡献考可以明确的了解到，并且最终的分数由每个查询词来“投票”得到。
最后通过设定相关阈值，来确定，回答文档集合中的每一句是否是回答了问句，低于该阈值的记为无关，高于该阈值的记为有关。