1、使用语言和任务适应进行多语言预训练以实现多语言文本风格转换
论文标题:Multilingual Pre-training with Language and Task Adaptation for Multilingual Text Style Transfer
作者利用预先训练的seq2seq模型mBART进行多语言文本样式转换。使用机器翻译的数据以及高质量对齐的英语句子在作者考虑的三种目标语言中产生了最先进的结果。此外,鉴于平行数据的普遍稀缺性,作者提出了一种模块化的多语言形式迁移方法,包括两种旨在适应语言和任务的训练策略。作者的方法在没有单一语言任务特定并行数据的情况下获得了具有竞争力的性能,并且可以应用于其他风格迁移任务以及其他语言。
数据集介绍:
GYAFC:正式和非正式句子的英语数据集。用于Language adaptation模块。
XFORMAL:非正式文本 (0) <-> 正式文本 (1)。用于Task adaptation模块。
训练过程:
(1)Language adaptation模块训练:去噪任务的语言适应训练,目的是从损害的文本重建文本。
适配器组成:输入xi(h)的线性归一化、输入xi的下投影Wdown(hh)、输入xi的上投影Wup(hh)。
损失函数:其中φA是适应模块A的参数,T是目标语言中的句子,g是掩蔽句子中30%的单词的噪声函数。每种语言都有自己单独的适应模块。在语言适应训练期间,适应模块的参数被更新,而其他参数保持不变。
(2)Task adaptation模块训练:在对语言模块进行训练后,在辅助英语平行数据上对模型进行微调,目的是使模型适应于正式迁移的具体任务。只更新解码器的交叉注意(即任务适应模块)的参数,而其他参数是固定的,从而限制了计算代价和灾难性遗忘。
多语言风格迁移处理:
(1)Language adaptation模块:
(i)使用带风格的语料训练编码器和解码器的适配器模块。编码器适配器由源语言风格预料训练,解码器的适配器由目标语言风格语料训练。
(ii)使用通用文本语料训练编码器和解码器的适配器模块。
(2)Task adaptation模块:
(i)X + EN cross-attn:该模块来自英语模型。
(ii)X + EN data:使用英语平行语料微调目标语言模型。
实验结果: