复旦大学张奇组:对话摘要数据不足?对话数据、文档摘要数据,我全都要!...

d7efe88c00adc824ee33fea289f7894c.gif

©PaperWeekly 原创 · 作者 | 刘兴贤

学校 | 北京邮电大学硕士生

研究方向 | 自然语言处理

这篇文章发表在 EMNLP 2021,是复旦大学张奇老师组的工作。本文尝试解决的问题是对话摘要预训练数据不足的问题,通过在未知域多源数据上预训练以提升低资源对话摘要效果。

dc99bdacf5552d54d02bc9f93458145a.png

论文标题:

Low-Resource Dialogue Summarization with Domain-Agnostic Multi-Source Pretraining

论文来源:

EMNLP 2021

论文链接:

https://arxiv.org/abs/2109.04080

e1b91d0e5b0d774278f2b223f066c260.png

Motivation

对话摘要任务,是从一段对话中抽取或生成一段总结。

对话摘要任务面临的其中一个重要问题是:训练数据不足, 但同时对话摘要数据很难获取,人工标注代价很高。

那么我们从哪里获得训练数据呢?我们很自然地想到,能不能从其他领域获得数据来加强训练呢?既然是对话摘要领域,我们能不能从对话领域、文本摘要领域中的数据集获益呢?

b53c9f341efe054c61de86ce65566ee7.png

当然可以,而且之前的一些工作确实有这么做,但随之也带来一些问题。这毕竟是对话摘要任务,文档摘要任务的输入与对话摘要任务的数据集形式上差异很大;此外,两个角色进行对话,目的绝不是为了重复对方的话,所以输出上有很大差异

直觉上,我们觉得对话和文档摘要数据确实应该对对话摘要任务很有帮助,但应该怎么使用呢?

35859e2f31fac015320c0866bf95217e.png

Main Idea

本文尝试解决的核心问题是如果使用了多源的数据集,如拿对话数据集和文档摘要数据集进行预训练,会产生预训练阶段和 finetuning 阶段的 gap。

这个问题的产生的主要原因之一是因为对话的结构和文档具有显著差别:

  • 对话具有特征不同的多个参与者;

  • 对话过程中会出现口语化的非正式表达;

  • 对话摘要的输出,尤其是长度和结构和其他摘要任务差别很大。

针对这个问题,本文的核心 Idea 就是:既然无法拿多源数据做端到端的训练,那可以将端到端的训练拆分成三部分:encoder 的训练、decoder 的训练、encoder 和 decoder 的联合训练。

拆成三部分之后,我们再看看这些部分的目的是什么?

  • 仅独立地看 encoder 部分,encoder 的目的是去学习对话的表示;

  • 仅独立地看 decoder 部分,decoder 的目的是去生成摘要文本;

  • encoder 和 decoder 的联合是为了为一个长输入生成意义接近的短输出。

既然 encoder 部分是为了学习对话的表示,对话数据适合去训练 encoder。

既然 decoder 部分是为了生成摘要文本,那么找一些概括性高的短句子训练 decoder 应该是有益的。

而 encoder 和 decoder 的联合是为了为一个长输入生成意义接近的短输出,因此使用文档摘要训练 encoder 和 decoder 的联合应该是有益的。

35204477d397f8cfce5adae142bf79b5.png

Abstract

随着日常生活中对话数据量的快速增长,对话摘要的需求也越来越大。不幸的是,由于对话数据与注释摘要难以获取,训练一个大的摘要模型通常是不可行的。大多数现有的低资源对话摘要工作直接在其他领域进行预训练,如新闻领域,但他们通常忽略了对话和传统文章之间的巨大差异。

为了弥补域外预训练和域内微调之间的差距,在这项工作中,我们提出了一个多源预训练范式,以更好地利用外部汇总数据。具体来说,本文利用大规模的域内非摘要数据,分别预训练对话编码器和摘要解码器。然后使用对抗数据成对组合对解码模型进行域外摘要数据的预训练,以促进未知域摘要的生成。

在两个公开数据集上的实验结果表明,在训练数据有限的情况下,该方法能够获得较好的竞争性能,并且在不同的对话情景下具有较好的概括性。

b1a92c8115191499a5158ff3419fe7ca.png

Method

56ec8e917b8249f3033d0007458d44f4.png

上图展示了本文如何利用多源数据进行预训练。

4.1 encoder 训练 

可以看到,对话数据用来训练 encoder 来学习对话的表示。训练过程使用了一个额外的 dialog decoder,训练任务是对话数据的自我重构。也即我们在使用对话数据进行对话自重构的训练过程中,训练了模型的 encoder。同时,为了让 encoder 更鲁棒,使用了 DAE(denoising auto-encoding)去噪编码器。 

使用的 loss 如下式:

53060c2b3b050153c4904990e7144f3a.png

4.2 decoder 训练 

可以看到,本文用概括性强的短文本来训练 decoder 来学习摘要输出的生成。训练过程类似 encoder 也是短文本的重构,是典型的自监督训练。同时使用了一个额外的短文本 encoder,端到端的去训练,并最终只保留 decoder 部分。 

使用的 loss 如下式,和 encoder 一样都是概率连乘取对数:

9d08877b2d3876f5048bad5316b010eb.png

4.3 联合训练 

此外,还有 encoder 和 decoder 的联合训练,这个部分是使用文档摘要数据来训练的,目的是为了学习由长文本输入到短文本输出的建模。

15b0b0f58a57ee158ebef4a6ccf247d8.png

4.4 对抗学习模块

理想的目标是:让 DAE(去噪编码器)学习到对话的语言风格和表示。

但由于我们同时馈送到 encoder 中的不止是对话数据(非正式),还有一部分是文本摘要数据(这里是新闻数据)。同样地,decoder 中馈送的是短文本和文本摘要的 encode 结果。模型会学到这些特定域的归纳偏置。因此如果模型在一个新的领域中进行摘要将变得十分困难。我们如果想让模型泛化到一个新的域,需要学习这些域中表示的通用特征

因此本文基于对抗学习的思想,使用了一个对抗鉴别器,努力地使鉴别器不能预测是哪个类,从而确保不同域上的特征分布是相似的,也即让模型更关注通用内容而不是特定域的属性

这里使用的鉴别器是一个简单的多层感知机,后面加上一个 sigmoid 激活层。训练一个简单的二元分类器,使用 logistic loss function。

有两个这样的鉴别器,分别在 encoder 端试图区分对话和新闻数据,在 decoder 端试图区分短文本和新闻数据。

4.5 总结 

最后的总 loss 如下式:

a021fb37631bbf2c782758e3b80e00d8.png

应当说明的是,前面为了表述清楚,各模块的训练是分开讲的,但其实仍然是一起训练的,只不过是多任务的多个 loss 叠加,至此预训练阶段结束。最后在真正的对话摘要数据集上进行 finetuning。

2efcb9238da17930059b6e14e68725a9.png


Experiment

本文的实验设置是在新闻摘要数据、对话数据、短文本数据上进行预训练,然后在 SAMSum 数据集上进行微调,同时也测试了添加了新闻摘要数据的其他模型效果,从下图中可以看到,并不是所有的模型在添加了额外的多源数据后获得了效果的提升。

2b4c5c25d9625caf442c4ed29304c683.png

本文同时也进行了零样本学习,由于进行了预训练,可以看到零样本场景下的表现还是不错的。

78caf804720a8d9ce1e00990310d1b2a.png

02f0f6b0798b7e455914d1d933bd1c86.png

针对各类数据的训练过程的消融实验如下图所示:

7f673555db67aaaea1919802672ff914.png

可以看到由于加入了预训练, 所以在低资源情况下,还能保持一定的性能。

7e6e4d72acf7669bcb9ff3e65e83b873.png

49acac57771c93eb734d199aaaa5f320.png

下图展示了对抗学习模块的效果,可以看到在加入对抗学习模块前,对话数据和新闻数据这两个不同的域具有明显的可区分边界,这意味着模型学习到了它们的归纳偏置;加入对抗学习模块后,两类数据的分布变得相似,不可区分意味着模型减少了对他们域偏置的特征学习。

c903f28ae17419ac39e30fb7eb82686c.png

下图是对话摘要的一个 case:

fe368012994ea549d37eb18389996413.png

6cface4fbcc1868269d6b62ab2a9962f.png


Conclusion

本文提出了一种面向低资源对话文摘的领域无关的多源预训练模型,该模型利用外部大规模语料库中的多源对话建模、摘要语言建模和抽象摘要。 

训练时采用对抗性信号学习领域不可知的摘要。实验结果验证了该方法在低资源环境下的有效性和通用性。 

未来的研究方向是探索如何在多源预训练策略中保持 token 级交叉注意力。通过这种方式,我们可以在通用 transformer 架构的模型中采用这种策略,例如  bart,以便从大规模的预训练语言模型中受益。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

749c6517c825db826f14087f9f04c1a5.png

c0899909b0bdb837eedb53f11bb5e9b3.png

f8d72d60b8269eebc8f09d4549fb0362.png

af2c90f0e4479e00dbd02743175e0006.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

27b2502565c791b258a95cadd722740a.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

dbbb2930dc34a1ba9b1b25542fe87843.png

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值