跨语言对话摘要

每天给你送来NLP技术干货!


来自:知识工场

一、研究背景

跨语言摘要(Cross-Lingual Summarization)旨在为一种语言的文档生成另一种语言的摘要。目前已有的跨语言摘要研究主要关注在新闻报道[1,2],生活指南[3]以及百科文章[4]上,缺乏针对于对话文档的研究。不同于其他文档,对话文档记录了由多名参与者所提供的结构化对话信息,有着信息分散、话题转移频率高等特点。

为了推进针对于对话文档的跨语言摘要研究,我们与微信模式识别中心展开合作,共同提出了跨语言对话摘要任务并构建了第一个大规模的跨语言对话摘要基准数据集ClidSum。在此基础上,我们制定了不同的预训练策略来提升已有多语言预训练模型(即mBART-50)在跨语言对话摘要上的适应力,并提出了mDialBART跨语言对话摘要预训练模型。目前该工作已被EMNLP 2022主会接收。相关链接如下:

e2ca5c3a4583367bc7a29b957d31e74a.png

Paper:https://arxiv.org/abs/2202.05599

Code :https://github.com/krystalan/ClidSum

二、ClidSum构建流程

PART 01

构建思路

以往的跨语言摘要数据集主要通过两种方式构建:(1)将单语摘要数据集中的摘要部分从源语言翻译至目标语言,这样原始文档与翻译后的摘要便可构成跨语言摘要样本;(2)从多语言网站上直接收集跨语言摘要对,例如在维基百科中,将某一词条的主体部分当作源语言文档,并将该词条在其余语言版本中的首段当作目标语言摘要。

通过调研,我们发现目前没有公开的网络资源提供多语言对话数据,因此我们采用方法(1)来构建跨语言对话摘要数据集,即选择已有的单语对话摘要数据集,并翻译其中的摘要部分。

PART 02

数据选择

在比较了已有的单语对话摘要数据集[5]后,我们选择了SAMSum数据集[6]以及MediaSum数据集[7]。SAMSum和MediaSum有着较高的质量,包含了真实世界中或人工标注的单语言对话-摘要对,涉及到人们生活的多种场景。这两个数据集也在近几年的单语对话摘要研究中也备受关注[5]

7ae7aa4589b9fcb846aa5a7e70de7a9f.png

图1 SAMSum(左)与MediaSum(右)单语摘要数据集中的样例

PART 03

标注过程

在确定单语对话摘要数据集之后,我们采用人工翻译的方式将SAMSum的全部摘要(约16K)以及MediaSum的部分摘要(40K)从英文分别翻译至汉语与德语。

在翻译过程中,我们采用了严格的质量控制流程,所有英汉译员均通过了英文专八(TEM-8)的资格认定,所有英德译员均通过了英文专八(TEM-8)与德语专八(PGH)的资格认定。除此之外,还有数据审查人员与数据专家对翻译结果进行抽查与评定,确保所得到的汉语/德语摘要的质量。

我们将翻译后的SAMSum数据集称为XSAMSum,将MediaSum被翻译的部分称为XMediaSum40k,没翻译的部分称为MediaSum424k。

PART 04

数据统计

0df8eba455aa4fa58708bdbc2d21eafc.png

表1 先前跨语言摘要数据集与ClidSum数据集的统计对比

如上表所示,ClidSum一共包含了约56K英中跨语言对话摘要对,以及56K英德跨语言对话摘要对。其中约16K来自SAMSum,40K来自MediaSum。此外,SAMSum的文档平均长度为83.9,而MediaSum则长达上千单词。因此,ClidSum对短文本与长文本均有涉及。

三、mDialBART预训练模型

01

动机

现有的多语言预训练生成模型(例如mBART和mT5)在预训练阶段仅学习到了底层的语言建模能力,并没有建模跨语言能力以及理解对话文档的能力。为了帮助多语言预训练生成模型更好地完成跨语言对话摘要任务,我们在mBART的基础上提出了mDialBART预训练生成模型。

02

预训练任务

ac9b0d8ac4e6e838552a18fd197096a4.png

图2 mDialBART中的四个预训练任务

如上图所示,为了提升模型理解对话文档的能力,我们采用了action infilling和utterance permutation预训练任务。其中action infilling随机掩码了对话文档中的重要信息,并让模型恢复原始对话文档,受启发于S-BART[8],我们将对话文档中的who-doing-what信息视为重要信息。Utterance permutation打算了一篇对话文档中的utterance顺序,并让模型进行恢复。除此之外,我们还采用了单语对话摘要(monolingual dialogue summarization)任务以及机器翻译(machine translation)任务同时让模型学习摘要和翻译的能力。

03

实验结果

64f484157df058b52e1f685d91542937.png表2 主实验结果

如上表所示,我们在XMediaSum40k上对比了mDialBART和众多基线模型,发现该预训练生成模型能够更好地用于跨语言对话摘要任务。

04

获取模型

我们已将mDialBART的模型参数开源在Huggingface社区,你可以通过下面的方式进行调用:

from transformers import MBartForConditionalGeneration

mdialbart_de = MBartForConditionalGeneration.from_pretrained('Krystalan/mdialbart_de')

mdialbart_zh = MBartForConditionalGeneration.from_pretrained('Krystalan/mdialbart_zh')

四、总    结

在本文中,我们提出了跨语言对话摘要任务并构建了第一个大规模的跨语言摘要对话基准数据集ClidSum。在构建过程中,我们采用了人工翻译已有单语对话摘要数据集的方式合成了跨语言对话摘要数据集,并进行了严格的质量控制流程。除此之外,为了让已有多语言预训练生成模型更好地完成该任务,我们在mBART的基础上提出了mDialBART,利用四个预训练任务进一步提升模型理解对话、摘要和翻译的能力。实验结果证明了mDialBART的有效性。

五、参考文献

[1] Junnan Zhu, Qian Wang, Yining Wang, Yu Zhou, Jiajun Zhang, Shaonan Wang, Chengqing Zong. NCLS: Neural Cross-Lingual Summarization. In Prof. EMNLP 2019.

[2] Tahmid Hasan, Abhik Bhattacharjee, Wasi Uddin Ahmad, Yuan-Fang Li, Yong-Bin Kang, Rifat Shahriyar. CrossSum: Beyond English-Centric Cross-Lingual Abstractive Text Summarization for 1500+ Language Pairs. ArXiv preprint, abs/2112.08804.

[3] Faisal Ladhak, Esin Durmus, Claire Cardie, Kathleen McKeown. WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive Summarization. In Findings of EMNLP 2020.

[4] Laura Perez-Beltrachini and Mirella Lapata. Models and Datasets for Cross-Lingual Summarisation. In Prof. EMNLP 2021.

[5] Xiachong Feng, Xiaocheng Feng, Bing Qin. A Survey on Dialogue Summarization: Recent Advances and New Frontiers. In Prof. IJCAI 2022 (survey track).

[6] Bogdan Gliwa, Iwona Mochol, Maciej Biesek, Aleksander Wawer. SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization. In Prof. of the 2nd  Workshop on New Frontiers in Summarization.

[7] Chenguang Zhu, Yang Liu, Jie Mei, Michael Zeng. MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization. In Prof. NAACL 2021.

[8] Jiaao Chen and Diyi Yang. Structure-Aware Abstractive Conversation Summarization via Discourse and Action Graphs. In Prof. NAACL 2021.

635a66caef268d4d27f03771fb9d59b4.gif

论文&文稿作者

450c10c2a91298d0f3934f8cd345c744.png

责任编辑:王文


📝论文解读投稿,让你的文章被更多不同背景、不同方向的人看到,不被石沉大海,或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

COLING'22 | SelfMix:针对带噪数据集的半监督学习方法

ACMMM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作

ACM MM 2022 Oral  | PRVR: 新的文本到视频跨模态检索子任务


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

f99a605350cdb831871b211835e86263.png

记得备注~

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值