ACL 2018 | 基于深度注意力匹配的检索式多轮对话模型

最新推荐文章于 2024-08-12 11:47:43 发布

a609640147

最新推荐文章于 2024-08-12 11:47:43 发布

阅读量1.6k

点赞数

文章标签：人工智能论文

本文链接：https://blog.csdn.net/a609640147/article/details/91388062

版权

多轮对话系统中的问答匹配，以往的研究中大多关注表面文本相关性，对潜在依赖关注较少，本论文受Transformer启发，提出一种基于多粒度注意力的多轮对话问答匹配模型。

论文地址:
https://www.aclweb.org/anthology/P18-1103

引言

本文受机器翻译任务中Transformer模型的启发，提出一种完全基于注意力机制的多轮对话问答匹配模型，即DAM（Deep Attention Matching），使用Transformer结构以多粒度的单句self-attention和句间cross-attention结合，对问答文本进行匹配。在Ubuntu Corpus v1和豆瓣对话语料集上的实验结果表明，本文的方法大幅超过当前state-of-the-art模型。

模型

DAM网络模型
模型框架结构分为：词向量层-多粒度表示层-问答匹配层-整合评价层。

词向量层

将输入的历史上下文和候选应答文本转变为向量。

多粒度表示层

其作用是基于Transformer结构构建不同粒度的语义表示，表示层有L层，每层都是self-attention，第l层的输入为第l-1层的输出，进而可以将输入的语义向量组合成更复杂的表示，L层Transformer层的输出和原始Word Embedding向量共同作为匹配层的输入。

问答匹配层

匹配层使用了Self-attention-match和Cross-attention-match计算候选response与多轮对话上下文的匹配矩阵。Self-attention-match原理如下：

将历史上下文文本的多粒度表示，与候选应答文本多粒度表示点乘得到问答匹配矩阵，用于整合评分。
Cross-attention-match原理如下：

首先使用Transformer结构以历史上下文文本和候选应答文本互为Query和Key，计算交互依赖信息矩阵，然后将交互依赖信息矩阵点乘得到交互依赖匹配矩阵，用于整合评分。

整合信息层

匹配层的下一层是整合评价层，首先由匹配层产出的交互依赖匹配矩阵和问答匹配矩阵拼接，得到聚合矩阵Q。

其中Q的维度为，上下文文本总数 × 上下文文本句长 × 候选应答文本句长，矩阵的每个像素都为2(L+1)维的匹配信息（L为Transformer encoder的层数）。再通过一个带有最大池化层的两层3D卷积神经网络从矩阵Q中抽取特征，得到匹配层的特征，最后通过单层感知机计算该候选应答文本的匹配概率。