#今日论文推荐#NAACL 2022 Findings | 字节提出MTG:多语言文本生成数据集
随着人工智能的不断发展,各种文本生成模型逐渐应用于人们的生活中。例如,自动文本摘要模型能够自动生成文章的摘要,为希望快速了解文章大意的读者提供简洁核心的摘要概述;故事生成模型能够根据输入的故事前缀生成符合逻辑的结尾,为文字创作者提供灵感... 所有这些生成的文字,或直接、或间接地出现在我们的生活中。
另一方面,随着国际化的步伐不断加快,我们对于获取信息的渠道也不再局限在单种语言。现今多语言,甚至是跨语言的文本生成能力恳待提升。而当前这类多语言文本生成任务的主要瓶颈在于对应任务下的跨语言生成数据较少,集成了多个任务,提供多种跨语言文本生成数据的数据集则尤为稀缺。
在多语言、跨语言文本生成数据缺少的背景下,字节跳动人工智能实验室提出了一篇多语言文本生成工作 MTG: A Benchmark Suite for Multilingual Text Generation,收录于 NAACL 2022 Findings。该篇文章主要提供了一个囊括4种任务、5种语言的多语言、语言间对齐 (multiway) 的文本生成数据集,能够提供丰富的多语言、跨语言文本生成数据,并在多个经典多语言预训练模型上进行了细致全面的实验分析。
论文题目:MTG: A Benchmarking Suite for Multilingual Text Generation
详细解读:https://www.aminer.cn/research_report/62b51c077cb68b460fda2c80https://www.aminer.cn/research_report/62b51c077cb68b460fda2c80
AMiner链接:https://www.aminer.cn/?f=cs