论文阅读 | Multi-Cast Attention Networks for Retrieval-based Question Answering and Response Prediction

Multi-Cast Attention Networks for Retrieval-based Question Answering and Response Prediction

(KDD 2018)

1.主要特点:

通常,一个句子应用一次attention,然后学习最终表示并传递给预测层。许多现有模型的明显缺点是它们通常仅限于一种attention变体,在调用一次或多次注意力机制的情况下,如果用连接来融合表示,在每次调用时,表示的加倍会使后续层中成本增加。

故针对上述问题本文旨在解决两个方面:

(1)消除调用任意k次注意力机制所需架构工程的需要,且不会产生任何后果。

(2)通过多次注意力调用建模多个视图以提高性能,与multi-headed attention相似。为此,我们引入了多播注意力(Multi-Cast Attention),这是一种新的深度学习架构,用于问答和对话建模领域的大量任务。

2.模型细节

Alt text

2.1输入层

对于每个embedding使用highway作为输入层。
许多工作都采用一种训练过的投影层来代替原始词向量。这不仅节省了计算成本,还减少了可训练参数的数量。本文将此投影层扩展为使用highway编码器,可以解释为数据驱动的词滤波器,它们可以参数化地了解哪些词对于任务具有重要性和重要性。例如,删除通常对预测没有多大贡献的停用词和单词。与自然门控的循环模型类似,highway编码器层控制每个单词流入下一层多少信息。
Alt text

2.2.attention

计算Q与D的相似度矩阵
Alt text

(1)max
Alt text


(2)mean
Alt text


(3)alignment(对齐)
去重新对齐Q与D
Alt text


(4)self-attention
Alt text


2.3.多播attention

(1)分别使用三种形式去捕捉多种特征
Alt text
其中:
1.Alt text
2.Alt text

(2)压缩函数(compression function)

  • Fc F c 为压缩函数(compression function)讲feature压缩至一个标量,文中使用了3种:

    • Alt text
  • 效果比较(三种效果相差不大):

    • Alt text

(3)如何使用?
+ 对于每个query-document对,应用Co-Attention with mean-pooling,Co-Attention with max-Pooling和Co-Attention with alignment-pooling。 此外,将Intra-Attention分别单独应用于query和document。
+ 每个注意力投射产生三个标量(每个单词),它们与Intra-Attention后的词向量连接在一起。最终的投射特征向量每个embedding维数+3, Alt text


2.4 使用LSTM 编码

(1) 对于每一个Q和D,使用一个LSTM区进行编码,在Q和D之间共享权重
Alt text

(2) pooling
Alt text


2.5 输出层

将问题和回答concat输入到两层的highway网络中
Alt text

结果比较

Alt text

参考博客:用于检索式问答系统的多播注意力网络

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值