Gavin老师Transformer直播课感悟 - 基于Retrieval的具有Fine-grained架构的对话系统(二）

最新推荐文章于 2024-08-03 21:27:16 发布

m0_49380401

最新推荐文章于 2024-08-03 21:27:16 发布

阅读量1.5k

点赞数 1

分类专栏： AI 文章标签： transformer 架构深度学习

本文链接：https://blog.csdn.net/m0_49380401/article/details/121864176

版权

AI 专栏收录该内容

165 篇文章 11 订阅

订阅专栏

一、Related work介绍

最近的研究多集中于在基于retrieval的多轮对话系统中，当一个包含多轮对话的上下文被提供时，系统应该如何选择最合适的响应，如使用BERT对上下文序列进行编码，产生一个dense vector，然后把这个vector同一组可选响应的矩阵进行相乘，比较它们的相关度，然后使用softmax得到概率分布，从而选出一个概率最高的作为系统的响应。在对比这些研究时发现，有一种方式是使用称为IRC语料库的基准数据集和一个基于RNN网络的模型，另一种方式是使用一种基于dual encoder的模型来试图有效地对上下文进行编码和使用LSTM和CNN作为encoder对响应部分进行编码，这里提到的dual encoder可以看做是有左右两个encoder部分，使用左侧对上下文进行编码，而使用右侧对响应部分进行编码，上下文是指当前用户和系统交互的内容，通过编码形成一个dense vector。随着注意力机制的出现，注意力机制被用于对话系统来选择系统响应。譬如通过对话中的多个交互blocks来在上下文和响应之间进行一种深度的交互，从而通过对话状态控制器来改善训练表现。

论文提到使用开源的BERT模型，具有12层，12个注意力头，768维度的hidden state。BERT有两个训练目标：MLM和NSP，MLM使用掩码机制来进行预测，而NSP是针对给定的两个文本序列A和B，训练模型来决定序列B是否在序列A之后（指位置是否“相邻”），模型把A和B作为输入并使用token [SEP] 进行分隔，然后使用segment embedding 的“0”代表序列A，而“1”代表序列B，那么，通过使用token [CLS] 来表达序列A和B之间的关系。BERT提供了表达A和B两种数据关系的框架，如在问答场景下，A表示问题部分，而B表示答案部分。由于BERT的NSP被很多人诟病，所以出现了AL-BERT这种模型，它使用SOP （sentence ordering prediction）来代替NSP作为训练目标，SOP用于区分序列A和B的顺序是否是正确的或者它们是否顺序被颠倒了。

Post-training方法可以帮助模型理解在一个响应选择任务中引入的特定的领域。除了能适应领域之外，这种方法还有起到数据增强的优点，因为它能通过在对话中已有数据之间的相互作用来制造更多的数据，这些数据可能是正样本，也可能是负样本。然而这种方法没有反映出会话的特征，因为它仅仅是沿用了BERT的预训练方法。为了解决这个问题，论文提出了一种新的post-training方法来适应多轮对话的特点。

二、模型介绍

问题域的建立(Problem Formalization)

假设数据集D由Context Ci，response Ri，ground truth label Yi构成，

上下文context是一个对话序列(utterance sequence)，表示为Ci = {u1,u2,…,uM}, 这里的M是context长度的最大值。第j个话语uj = {Wj,1 , Wj,2, …, Wj, L}, 包含了L个tokens，L是这个序列的最大长度。对于每个response，ri是表示单个的话语，yi表示给定triple的逻辑标签，即是0或者1，如ri是ci的正确的响应，那么yi = 1，否则yi = 0。对于给定的context-response pair(ci, ri)，上下文ci和响应ri的匹配度通过函数g(ci, ri) 获得。

2. Fine-tuning BERT for Response Selection

现有BERT模型的输入格式(x)表示为([CLS], sequence A, [SEP], sequence B, [SEP])，这里的[CLS]和[SEP]是特殊token。

为了测量一个context-response pair的匹配程度，通过使用序列A作为上下文和使用序列B作为响应来构建输入, 另外，在每个话语的后面添加了一个token [EOU] (end of utterance)用于在上下文中区分它们，BERT对于响应选择的输入格式表示如下：

X通过position，segment，token 的embeddings之和(sum操作)来表示输入vector。

BERT通过使用自注意力机制对context和response之间的注意力进行计算，T[cls]用来表示context-response pair的全局信息，最后的分数g(c, r)表示上下文和响应的匹配程度，通过把T[cls]传入一个单层的神经网络而获得（通过矩阵线性处理）。Wfine是一个任务特定的用于fine-tuning的可训练的参数矩阵。

最后模型的权重通过cross-entropy loss函数进行更新：

3. Fine-grained Post-training

为了改进通过有效抓取多轮对话信息来选择一个恰当的响应，使用了一种简单的但是强有力的post-training方法，这种细粒度的post-training方法对话语相关度进行区分。有两种学习策略，即把整个对话划分为多个short context-response pair和使用URC作为训练目标之一，通过前一种策略，模型可以学习到对话内部相关话语之间的交互作用; 通过URC，模型可以学习语义级别的相关性，以及话语之间的连贯性。

m0_49380401

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Gavin老师Transformer直播课感悟 - 基于Retrieval的具有Fine-grained架构的对话系统(二）

一、Related work介绍最近的研究多集中于在基于retrieval的多轮对话系统中，当一个包含多轮对话的上下文被提供时，系统应该如何选择最合适的响应，如使用BERT对上下文序列进行编码，产生一个dense vector，然后把这个vector同一组可选响应的矩阵进行相乘，比较它们的相关度，然后使用softmax得到概率分布，从而选出一个概率最高的作为系统的响应。在对比这些研究时发现，有一种方式是使用称为IRC语料库的基准数据集和一个基于RNN网络的模型，另一种方式是使用一种基...
复制链接

扫一扫

专栏目录