目录
主要针对模型和数据集方面进行了介绍,略过了实验结果部分。
一、前言
文章通过将传统的基于图形的神经网络模型与基于递归的神经模型进行结合,提出了一种通过有向无环图将对话进行编码的新思路,这种新型的编码方式能够更好地结合long-term对话信息以及相邻上下文的信息,并在四个baseline上取得了很好的效果。
基于图的神经网络模型只会从一个固定长度的window内获取对话信息,这种模型的缺点就是会损失掉一些稍远距离的对话和序列信息;基于递归的神经模型通过用编码的方式来获取一定时间步内的对话和序列信息,然而,这种模型往往只使用最近的语句中相对有限的信息来更新语句的状态,这使得它们很难获得令人满意的性能。
使用有向无环图结构的好处是建模过程可以根据真实对话发生的顺序来进行,即一个句子的节点只能获取到过去发生的对话信息而无法获取到还未发生的对话信息,同时也无法包含指向自己的一条边。
二、数据集介绍
文章的实验部分主要使用了四个数据集,IEMOCAP、MELD、DailyDialog以及DailyDialog,文章只使用了多模态数据集中的文字数据来进行实验,这几个数据集都经过了预训练语言模型roberta进行特征提取,以IEMOCAP做例子,在pycharm的debug中看一下其中数据是如何表示的:
IEMOCAP定义了六种情绪标签与302条对话人物信息:
下图中的一个d是一轮对话的多个句子集合,每个句子都包含五条信息,分别是句子内容、说话人信息、句子情绪标签、一个文章没有用到的feature信息以及cls,文章使用cls的pool embedding来当作句子的特征表示。
三、模型介绍
3.1、问题定义
在DAG-ERC模型中,作者将一个对话定义为一个句子的序列,表示为,每一个句子由许多个单词表示,作者定义了用于表示每一个句子的情绪预测标签,说话者的身份使用