多轮对话系统中的问答匹配,以往的研究中大多关注表面文本相关性,对潜在依赖关注较少,本论文受Transformer启发,提出一种基于多粒度注意力的多轮对话问答匹配模型。
论文地址:
https://www.aclweb.org/anthology/P18-1103
引言
本文受机器翻译任务中Transformer模型的启发,提出一种完全基于注意力机制的多轮对话问答匹配模型,即DAM(Deep Attention Matching),使用Transformer结构以多粒度的单句self-attention和句间cross-attention结合,对问答文本进行匹配。在Ubuntu Corpus v1和豆瓣对话语料集上的实验结果表明,本文的方法大幅超过当前state-of-the-art模型。
模型
模型框架结构分为:词向量层-多粒度表示层-问答匹配层-整合评价层。
词向量层
将输入的历史上下文和候选应答文本转变为向量。
多粒度表示层
其作用是基于Transformer结构构建不同粒度的语义表示,表示层有L层,每层都是self-attention,第l层的输入为第l-1层的输出,进而可以将输入的语义向量组合成更复杂的表示,L层Transformer层的输出和原始Word Embedding向量共同作为匹配层的输入。
问答匹配层
匹配层使用了Self-attention-match和Cross-attention-match计算候选response与多轮对话上下文的匹配矩阵。Self-attention-match原理如下:
将历史上下文文本的多粒度表示,与候选应答文本多粒度表示点乘得到问答匹配矩阵,用于整合评分。
Cross-attention-match原理如下:
首先使用Transformer结构以历史上下文文本和候选应答文本互为Query和Key,计算交互依赖信息矩阵,然后将交互依赖信息矩阵点乘得到交互依赖匹配矩阵,用于整合评分。
整合信息层
匹配层的下一层是整合评价层,首先由匹配层产出的交互依赖匹配矩阵和问答匹配矩阵拼接,得到聚合矩阵Q。
其中Q的维度为,上下文文本总数 × 上下文文本句长 × 候选应答文本句长,矩阵的每个像素都为2(L+1)维的匹配信息(L为Transformer encoder的层数)。再通过一个带有最大池化层的两层3D卷积神经网络从矩阵Q中抽取特征,得到匹配层的特征,最后通过单层感知机计算该候选应答文本的匹配概率。
实验结果
实验结果超越了之前的state-of-art,尤其是 R_{10}@1 (从10个候选结果里召回top1)。另外,作者也给出了模型在不同配置下的性能情况。
结论
本文提出的DAM模型,基于深度注意力机制对文本对进行多粒度表示,计算多轮对话上下文和候选应答文本之间的交互依赖匹配信息,最后通过3D分类器完成匹配评分。