ACL 2018 | 基于深度注意力匹配的检索式多轮对话模型

多轮对话系统中的问答匹配,以往的研究中大多关注表面文本相关性,对潜在依赖关注较少,本论文受Transformer启发,提出一种基于多粒度注意力的多轮对话问答匹配模型。

论文地址:
https://www.aclweb.org/anthology/P18-1103

引言

本文受机器翻译任务中Transformer模型的启发,提出一种完全基于注意力机制的多轮对话问答匹配模型,即DAM(Deep Attention Matching),使用Transformer结构以多粒度的单句self-attention和句间cross-attention结合,对问答文本进行匹配。在Ubuntu Corpus v1和豆瓣对话语料集上的实验结果表明,本文的方法大幅超过当前state-of-the-art模型。

模型

DAM网络模型
模型框架结构分为:词向量层-多粒度表示层-问答匹配层-整合评价层。

词向量层

将输入的历史上下文和候选应答文本转变为向量。

多粒度表示层

其作用是基于Transformer结构构建不同粒度的语义表示,表示层有L层,每层都是self-attention,第l层的输入为第l-1层的输出,进而可以将输入的语义向量组合成更复杂的表示,L层Transformer层的输出和原始Word Embedding向量共同作为匹配层的输入。

问答匹配层

匹配层使用了Self-attention-match和Cross-attention-match计算候选response与多轮对话上下文的匹配矩阵。Self-attention-match原理如下:

将历史上下文文本的多粒度表示,与候选应答文本多粒度表示点乘得到问答匹配矩阵,用于整合评分。
Cross-attention-match原理如下:

首先使用Transformer结构以历史上下文文本和候选应答文本互为Query和Key,计算交互依赖信息矩阵,然后将交互依赖信息矩阵点乘得到交互依赖匹配矩阵,用于整合评分。

整合信息层

匹配层的下一层是整合评价层,首先由匹配层产出的交互依赖匹配矩阵和问答匹配矩阵拼接,得到聚合矩阵Q。

其中Q的维度为,上下文文本总数 × 上下文文本句长 × 候选应答文本句长,矩阵的每个像素都为2(L+1)维的匹配信息(L为Transformer encoder的层数)。再通过一个带有最大池化层的两层3D卷积神经网络从矩阵Q中抽取特征,得到匹配层的特征,最后通过单层感知机计算该候选应答文本的匹配概率。

实验结果

实验结果超越了之前的state-of-art,尤其是 R_{10}@1 (从10个候选结果里召回top1)。另外,作者也给出了模型在不同配置下的性能情况。

结论

本文提出的DAM模型,基于深度注意力机制对文本对进行多粒度表示,计算多轮对话上下文和候选应答文本之间的交互依赖匹配信息,最后通过3D分类器完成匹配评分。

![](http://weixin.fatherai.com/FmJ-HgUqW62sBgW4nPirrXOq-qwj) 扫码识别关注,获取更多论文解读
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值