多轮对话——检索式

最新推荐文章于 2024-06-04 09:48:29 发布

耩豇

最新推荐文章于 2024-06-04 09:48:29 发布

阅读量6.5k

点赞数 6

分类专栏：文本匹配与检索式问答文章标签： NLP 对话系统多轮对话

本文链接：https://blog.csdn.net/qq_33858719/article/details/93191037

版权

文章目录

前言
Multi-view
SMN
DUA
DAM
MRFN
总结
Reference

前言

接着上次的短文本匹配初探。深度文本匹配作为检索式对话的单轮匹配问答，无法完成多轮的任务，在单轮的基础上，加入其它 feature 的提取技巧，可以完成多轮对话。

Multi-view

Multi-view Response Selection for Human-Computer Conversation EMNLP2016

作者提供了一种直接的单轮转多轮思路——将多轮问答语句合并为一列, 连接处用_SOS_隔开, 将整个对话历史视为"一句话"去匹配下一句。将整个对话历史合并为一列, 做word embedding后通过GRU模块提取词汇级特征, 与候选的response做匹配。
在这里插入图片描述
不过每次直接把 word embedding sequence 输入网络得到整个多轮对话的表示(context embedding)用GRU是很难学习的，所以文中提出将每个文本也做一次匹配，用的 TextCNN+pooling+GRU结构，以上就是 word-level 和 utterance-level 的结合。
在这里插入图片描述
从这篇论文后的大部分论文也follow了这种对每条utterance分别进行处理（表示或交互），而后对utterance embedding sequence用Gated RNN进行过滤和得到context embedding的思路。
集成的模型最后用的 loss 函数是disagreement-loss(LD)和likelihood-loss(LL)：
在这里插入图片描述

总结：

多粒度文本特征来表征多轮
还是文本匹配的本质，从这个模型本身上创新没有质的改变

SMN

Sequential Matching Network A New Architecture for Multi-turn Response Selection in Retrieval-Based Chatbots ACL2017

如果说第一篇Multi-view模型是单轮问答表示模型的扩展, 那这一篇就是单轮问答交互模型的扩展,作者认为构建问答历史语句和候选回复的交互表示是重要的特征信息, 因此借鉴语义匹配中的匹配矩阵, 并结合CNN和GRU构造模型:
在这里插入图片描述
与Multi-view模型类似, 这里作者也考虑同事提取词汇级和语句级的特征，不过作者在这里把两个文本的相似度矩阵看成一个图像，然后使用图像分类模型CNN来得到更高level的相似度特征表示（比如phrase level, segment level等），进而最终得到全局的相似度匹配特征，这个做法借鉴了之前的单轮匹配中的论文：Text Matching as Image Recognition
SMN给定一个candidate response，在生成word-level的每个utterance的向量表示的时候，首先计算出历史上每个utterance跟该response的对齐矩阵，然后对每个对齐矩阵，均使用上面这种图像分类的思想生成high-level表征文本对相似度的特征向量作为该utterance的向量表示（utterance embedding）。
之后就是使用前面Multi-view中的做法，从这个utterance embedding sequence中得到整个对话的context embedding，最后将该context embedding和之前的word-level下得到的context embedding与response的向量去计算相似度了。
计算匹配矩阵时，这里结合使用了原始的 word embedding 和用了 GRU对文本encoding之后的隐状态(即编码过上下文信息的word embedding，可以看作phrase-level的"word embedding")，然后这样将两份对齐矩阵作为两个channel丢进“图像分类模型”，从而保证了即使图像分类模型很浅，也能抽取出比较high-level的特征，得到高质量的utterance embedding。
最后的context embedding中作者使用比较了三种隐变量 $h_i$ 方式：