论文阅读 | Multi-Cast Attention Networks for Retrieval-based Question Answering and Response Prediction

最新推荐文章于 2022-10-20 11:47:26 发布

seeInfinite

最新推荐文章于 2022-10-20 11:47:26 发布

阅读量1.7k

点赞数

分类专栏：论文阅读

本文链接：https://blog.csdn.net/qq_41058526/article/details/81321330

版权

论文阅读专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Multi-Cast Attention Networks for Retrieval-based Question Answering and Response Prediction

（KDD 2018）

1.主要特点：

通常，一个句子应用一次attention，然后学习最终表示并传递给预测层。许多现有模型的明显缺点是它们通常仅限于一种attention变体，在调用一次或多次注意力机制的情况下，如果用连接来融合表示，在每次调用时，表示的加倍会使后续层中成本增加。

故针对上述问题本文旨在解决两个方面：

（1）消除调用任意k次注意力机制所需架构工程的需要，且不会产生任何后果。

（2）通过多次注意力调用建模多个视图以提高性能，与multi-headed attention相似。为此，我们引入了多播注意力(Multi-Cast Attention)，这是一种新的深度学习架构，用于问答和对话建模领域的大量任务。

2.模型细节

Alt text

2.1输入层

对于每个embedding使用highway作为输入层。
许多工作都采用一种训练过的投影层来代替原始词向量。这不仅节省了计算成本，还减少了可训练参数的数量。本文将此投影层扩展为使用highway编码器，可以解释为数据驱动的词滤波器，它们可以参数化地了解哪些词对于任务具有重要性和重要性。例如，删除通常对预测没有多大贡献的停用词和单词。与自然门控的循环模型类似，highway编码器层控制每个单词流入下一层多少信息。
Alt text

2.2.attention

计算Q与D的相似度矩阵
Alt text

（1）max

（2）mean

（3）alignment（对齐）
去重新对齐Q与D

（4）self-attention

2.3.多播attention

（1）分别使用三种形式去捕捉多种特征：
Alt text
其中:
1.
2.

（2）压缩函数（compression function）

而 $F_c$ 为压缩函数（compression function）讲feature压缩至一个标量，文中使用了3种：
效果比较（三种效果相差不大）：

（3）如何使用？
+ 对于每个query-document对，应用Co-Attention with mean-pooling，Co-Attention with max-Pooling和Co-Attention with alignment-pooling。此外，将Intra-Attention分别单独应用于query和document。
+ 每个注意力投射产生三个标量（每个单词），它们与Intra-Attention后的词向量连接在一起。最终的投射特征向量每个embedding维数+3， Alt text

2.4 使用LSTM 编码

(1) 对于每一个Q和D，使用一个LSTM区进行编码，在Q和D之间共享权重
Alt text

(2) pooling

2.5 输出层

将问题和回答concat输入到两层的highway网络中
Alt text

结果比较

Alt text

参考博客：用于检索式问答系统的多播注意力网络

seeInfinite

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
论文阅读 | Multi-Cast Attention Networks for Retrieval-based Question Answering and Response Prediction

Multi-Cast Attention Networks for Retrieval-based Question Answering and Response Prediction（KDD 2018）1.主要特点：通常，一个句子应用一次attention，然后学习最终表示并传递给预测层。许多现有模型的明显缺点是它们通常仅限于一种attention变体，在调用一次或多次注意力机制的情...
复制链接

扫一扫