bi-lstm

bi-lstm

attention over attention的问题 ,优化的点

首先将文档D和问题Q转化为one-hot向量,然后将one-hot向量输入embedding层,这里的文档嵌入层和问题嵌入层的权值矩阵共享,通过共享词嵌入,文档和问题都可以参与嵌入的学习过程,然后使用双向GRU分别对文档和问题进行编码,文档和问题的编码都拼接正向和反向GRU的隐藏层输出,这时编码得到的文档和问题词向量都包含了上下文信息。计算过程如图所示:
文档的Contextual Embedding表示为h_doc,维度为|D| * 2d,问题的Contextual Embedding表示为h_query,维度为|Q| * 2d,d为GRU的节点数。

在这里插入图片描述

比起单层的话双向GRU会使得编码得到的文档和问题词向量都包含了上下文信息

是的,但是这个GRU的网络结构嘛,attention是应用在哪里了呢?

主要是用来衡量问题与候选答案的内容匹配程度。计算反向注意力,即对于时间 t 的每一个答句,我们计算出问句中单个词的重要性, 以指出给定单个答句时, 问句中哪个词更重要。我们先对矩阵的每一列做 softmax 归一化,从而得到问题到答案的注意力矩阵;再 计算反向注意力,即对匹配矩阵的每一行做 softmax 归一化,获得答案到问题的注意力矩阵, 并按列求平均,获得一个注意力向量。最后,我们计算正反注意力的点积,这 样便得到注意力汇聚向量。利用这种方法,每个问句词组对答案的重要程度可以明确地 获知。注意力汇聚向量的分量表达了其对应位置的答句与问句的匹配程度,将分量值作 为匹配分数,通过多次实验确定最佳阈值,将匹配分数和阈值进行比较,从而得出结果 标签。

普通模型仅考虑应用简单的启发式方法(如求和或求平均) 来将得出注意力不同

在这里插入图片描述

我们得到了回答到问题级别的注意力 α 和问题级别的注 意力 β,其中 1 到 9 为答句候选集中语句标号,通过汇聚表明答句 5,6 和 9 的是有关答句的可能性较高。
s = αT β
在时间 t 查看问句词组时,计算每个独立文档等级 α(t) 注意力的加权 总和。通过这种方式,问句中的每个词的贡献考可以明确的了解到,并且最终的分数由 每个查询词来“投票”得到。
最后通过设定相关阈值,来确定,回答文档集合中的每一句是否是回答了问句,低 于该阈值的记为无关,高于该阈值的记为有关。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值