论文阅读笔记

该论文探讨了使用mBART模型进行多语言文本风格转换,通过语言和任务适应策略提高性能。在有限的平行数据条件下,提出了一种模块化的方法,包括语言适应和任务适应模块,实现在不同语言和风格迁移任务上的有效应用。
摘要由CSDN通过智能技术生成

1、使用语言和任务适应进行多语言预训练以实现多语言文本风格转换

论文标题:Multilingual Pre-training with Language and Task Adaptation for Multilingual Text Style Transfer

作者利用预先训练的seq2seq模型mBART进行多语言文本样式转换。使用机器翻译的数据以及高质量对齐的英语句子在作者考虑的三种目标语言中产生了最先进的结果。此外,鉴于平行数据的普遍稀缺性,作者提出了一种模块化的多语言形式迁移方法,包括两种旨在适应语言和任务的训练策略。作者的方法在没有单一语言任务特定并行数据的情况下获得了具有竞争力的性能,并且可以应用于其他风格迁移任务以及其他语言。

在这里插入图片描述

数据集介绍:
GYAFC:正式和非正式句子的英语数据集。用于Language adaptation模块。
XFORMAL:非正式文本 (0) <-> 正式文本 (1)。用于Task adaptation模块。

训练过程:
(1)Language adaptation模块训练:去噪任务的语言适应训练,目的是从损害的文本重建文本。
在这里插入图片描述
适配器组成:输入xi(h)的线性归一化、输入xi的下投影Wdown(hh)、输入xi的上投影Wup(hh)。
在这里插入图片描述
损失函数:其中φA是适应模块A的参数,T是目标语言中的句子,g是掩蔽句子中30%的单词的噪声函数。每种语言都有自己单独的适应模块。在语言适应训练期间,适应模块的参数被更新,而其他参数保持不变。

(2)Task adaptation模块训练:在对语言模块进行训练后,在辅助英语平行数据上对模型进行微调,目的是使模型适应于正式迁移的具体任务。只更新解码器的交叉注意(即任务适应模块)的参数,而其他参数是固定的,从而限制了计算代价和灾难性遗忘。

多语言风格迁移处理:
(1)Language adaptation模块:
(i)使用带风格的语料训练编码器和解码器的适配器模块。编码器适配器由源语言风格预料训练,解码器的适配器由目标语言风格语料训练。
(ii)使用通用文本语料训练编码器和解码器的适配器模块。

(2)Task adaptation模块:
(i)X + EN cross-attn:该模块来自英语模型。
(ii)X + EN data:使用英语平行语料微调目标语言模型。

实验结果:
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值