纠结于联合学习中的建模方法?快来看看图网络显式建模!

论文名称:Co-GAT: A Co-Interactive Graph Attention Network for Dialog Act Recognition and Sentiment Classification

论文作者:覃立波、黎州扬、车万翔、倪旻恒、刘挺

原创作者:黎州扬

论文链接:https://arxiv.org/pdf/2010.00190.pdf

代码链接:https://github.com/RaleLee/Co-GAT

转载出处:哈工大SCIR

在对话系统中,对话行为识别和情感分类是捕获对话者意图的两个相关任务,其中对话行为可以捕获显式的意图,情感可以表达隐性的意图。其中上下文信息(contextual information)和相互交互信息(mutual interaction information)是这两个相关任务的关键因素。但是,现有方法都无法同时考虑这两个重要的信息。

为了解决这个问题,在本文中,我们提出了一个协同交互图注意力网络 (Co-GAT) 来联合建模这两个任务。核心模块是我们提出的协同交互图交互层,可以在统一的图网络中构建跨历史连接 (cross-utterances connection)和跨任务连接 (cross-tasks connection)。我们的模型在两个公开的数据集达到了SOTA性能。此外,我们发现上下文和相互交互信息的贡献与预训练模型并不完全重叠,在多种预训练模型上(BERT,RoBERTa,XLNet) 均取得了性能提升。

本期AI TIME PhD直播间,我们有幸邀请到了该论文的作者,哈尔滨工业大学的博士生覃立波,为大家分享这项研究工作!

覃立波:哈尔滨工业大学社会计算与信息检索研究中心(SCIR)博士三年级研究生,导师为车万翔教授。研究方向为任务型对话系统等。相关研究成果发表在ACL、EMNLP、AAAI、IJCAI、COLING等会议上,曾获百度奖学金,字节跳动奖学金等,个人主页:http://ir.hit.edu.cn/~lbqin/。

1. 简介

1.1 研究背景与任务定义

在对话系统中,对话行为识别和情感分类是两个相关任务,能够帮助进行识别说话者的意图。其中,对话行为能够展示说话者显式的意图,而情感能展现说话者隐式的意图[1]。

更具体的来说,对话行为识别和对话情感分类都可以看作是分类任务,目标是将对话中的每条语句标注上对应的DA标签和SC标签。

图1 任务示例

1.2 研究动机

直观上,有两个关键因素有助于对话行为识别和情感预测。一个是跨任务的相互交互信息mutual interaction information,另一个是对话中的上下文信息context information。

图2 信息交互示例

如图2所示,在预测 User B 的情感标签 Negative 的过程中,相互交互信息 User B 的对话行为标签 Agreement ,对话历史信息 User A 的情感标签 Negative ,对成功预测起到很大帮助。在预测过程中, User BAgreement 标签表明其认同 User A 的上一句话,因此 User B 的情感标签更倾向于与 UserA 的上一句话的情感标签 Negative 相同。

所以,将两种信息同时考虑是很有必要的

图3 前人工作示意

如图3所示,前人的联合建模工作中,Cerisara等人[1]专注于相互交互信息(图3左),Kim等人[2]专注于对话历史信息(图3右)。最近,Qin等人[3]提出DCR-Net模型,虽然取得了较好效果,但是该模型却是以一种pipeline的方式来获取两种信息:在Encoder端获取对话历史信息,在relation layer端获取交互信息。但是我们认为,该类流水线式的模型存在一个问题:两种信息是单独建模的。

所以接下来的问题是:我们是否可以在一个统一的框架中同时对相互交互信息和上下文信息建模,来将它们完全整合呢?

为了解决此问题,我们提出了Co-Interactive Graph Attention Network(Co-GAT)模型来联合建模两个任务。核心模块是一个协同交互图层,在协同交互图中,我们使用了一个双重连接的交互模式,包含有跨语句连接和跨任务连接,并且能够相互迭代更新。更具体的来说,跨语句连接中,一个句子会和这段对话中其余的语句相连来获取对话中的上下文信息;跨任务连接中,一个句子会和另外一个任务中的这段对话中的所有句子连接来获取任务间的相互交互信息;同时这两种连接在一个统一的图网络中同时更新。

从而给出了之前提出问题的回答:每个话语节点可以与上下文信息和相互交互信息同时更新。

图4 Co-GAT示意

2. 模型

2.1 整体框架

图5 Co-GAT整体框架

如图所示,这是模型的整体框架。由三部分组成,第一部分为分层对话者感知编码器;第二部分为核心模块——协同图交互层;第三部分为解码器部分。将在以下部分中作详细介绍。

2.2 Vanilla Graph Attention Network

对于单层图注意力网络[4],它接受一个图中所有节点的表示作为输入,输出更新后的这些节点的表示。

首先,由公式1计算出hi邻接节点hj的重要性,然后通过公式2获取attention分数,最后使用求和的方式得到节点更新后的表示。这里我们还引入了多头注意力机制。

2.3 Hierarchical Speaker-Aware Encoder

我们使用Bi-LSTM来对句子进行编码。

之后,为了更好的揭示对话者自我的逻辑,我们引入了Speaker-Aware graph。在该图中,节点是对话中的每句话;如果节点i和节点j同属于一个对话者,那么就将其连接。

2.4 Co-Interactive Graph Layer

在协同交互图中,假设一段对话中有N个句子。

  • 顶点:一共有2N个顶点,每个顶点对应一个句子表示。

    • N个顶点为情感分类任务的句子表示

    • N个顶点为对话行为识别任务的句子表示

  • 边:一共有两种连接

    • 跨语句连接。节点i连接上其同属一个任务的节点来获取上下文信息

    • 跨任务连接。节点i连接上另一个任务的所有节点来获取相互交互信息

2.5 Decoder and Joint Training

我们使用两个单独的Decoder来获取分类的结果:

我们将loss联合起来更新:

3. 实验

3.1 数据集

我们在两个公开数据集Dailydialog和Mastodon上进行了实验,我们保持了两个数据集原分割不变。

  • Dailydialog中, 训练集11,118个对话, 验证集1,000个对话,测试集1,000个对话

  • Mastodon中,训练集239个对话,测试集266个对话

3.2 主实验结果

表1 主实验结果

如表所示,baseline结果分为三块,分别为单独的Dialogue Act Recognition模型、单独的Sentiment Classification模型和联合模型。从结果可以看出:

  • 我们的实验结果在所有指标上超过了现有DAR和SC的单独建模的模型,这表明了我们联合建模中提取mutual interaction information的有效性。

  • 我们的实验结果在所有指标上超过了现有的联合建模模型,这表明了将context information和mutual interaction information同时建模的有效性。

3.3 消融实验结果

表2 消融实验结果

上表是消融实验的结果,从中可以看出:

  • without cross-tasks connection设置中,我们将cross-tasks connection去掉,来验证mutual interaction information的有效性。

  • without cross-utterances connection设置中,我们将cross-utterances connection去掉,来验证context information的有效性

  • separate modeling设置中,我们将co-interactive interaction layer去掉,使用两个单独的GAT建模两个任务,然后将两个模型的结果求和来表示交互,这表明了我们的co-interactive interaction layer能更好的同时获取两种信息。

  • co-attention mechanism设置中,我们用DCR-Net中的co-attention mechanism来替换我们的co-interactive interaction layer,表明了pipeline方法的劣势。

  • without speaker information设置中,我们去掉了hierarchical speaker-aware encoder中的speaker-aware graph,验证了合理的建模speaker的信息流可以帮助提高模型的效果。值得注意的是,在去掉该信息后,我们模型的结果依旧高于SOTA模型DCR-Net。

3.4 预训练模型探索实验

我们在Mastodon数据集上探索了预训练模型的效果。我们直接将预训练模型替换hierarchical speaker-aware encoder作为Encoder,来观察我们提出的co-interactive graph layer的效果。

图6 BERT模型探索结果

图6是对于BERT模型的探索结果,我们的模型超过了baseline DCR-Net+BERT的效果

表3 RoBERTa和XLNet探索结果

表3是对于RoBERTa和XLNet预训练模型的探索结果。其中

  • RoBERTa/XLNet+Linear是将RoBERTa/XLNet作为共享encoder,然后使用两个单独的线性层作为decoder获得预测结果。

  • Co-GAT+RoBERTa/XLNet是将RoBERTa/XLNet替换hierarchical speaker-aware encoder作为Encoder,保持我们的model剩余部分不变。

实验结果表明,Co-GAT和RoBERTa/XLNet的结合可以进一步提升模型效果,证明了我们的贡献与预训练模型是互补的。

4.结论

在这篇文章中,我们的贡献如下:

  • 我们首次尝试同时结合上下文信息和相互交互信息来进行联合对话行为识别和情感分类。

  • 我们提出了一个协同交互的图注意力网络,该网络构造了交叉任务连接和交叉话语连接,并相互进行迭代更新,从而实现了同时结合上下文信息和交互信息的建模。

  • 在两个公开数据集上进行的实验表明,我们的模型取得了实质性的改进,并实现了最佳的性能。此外,我们框架的贡献与预训练模型(BERT,Roberta,XLNet)是互补的。

参考文献

[1] Cerisara, C.; Jafaritazehjani, S.; Oluokun, A.; and Le, H. T. Multi-task dialog act and sentiment recognition on mastodon. In Proc. of COLING 2018.

[2] Kim, M.; and Kim, H. Integrated neural network model for identifying speech acts, predicators, and sentiments of dialogue utterances. Pattern Recognition Letters 2018.

[3] Libo Qin, Wanxiang Che, Yangming Li, Mingheng Ni, Ting Liu. DCR-Net: A Deep Co-Interactive Relation Network for Joint Dialog Act Recognition and Sentiment Classification. AAAI 2020.

[4] Veličković P, Cucurull G, Casanova A, et al. Graph attention networks. ICLR 2018.

本期责任编辑:丁 效

本期编辑:彭 湃

AI TIME欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你!

请将简历等信息发至yun.he@aminer.cn!

微信联系:AITIME_HY

AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

更多资讯请扫码关注

 

(直播回放:https://b23.tv/mAjrwS)

(点击“阅读原文”下载本次报告ppt)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值