【ACL2020】关于正式风格迁移的数据增强方法

最新推荐文章于 2025-04-10 11:55:33 发布

zenRRan

最新推荐文章于 2025-04-10 11:55:33 发布

阅读量888

点赞数 1

文章标签：自然语言处理人工智能微软迁移学习机器翻译

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27590277/article/details/112343304

版权

作者：丁磊

paper：Parallel Data Augmentation for Formality Style Transfer

这是一篇关于风格迁移中如何进行数据增强的论文。在introduction部分，informal-->formal 的风格迁移问题，最大的障碍是训练数据的不足。为了解决此问题，本篇论文提出三种数据增强的方法来获得有用的语句对，分别为

back translation (BT)
我们使用原始语料库训练一个seq2seq模型。其中将formal语句作为模型的输入，让seq2seq模型有能力输出对应的informal句子。则模型输入的formal语句和输出的informal语句就构成了一个新的语句对。
formality discrimination (F-Dis)

F-Dis方法使用机器翻译模型，将一个informal句子重写为formal句子。首先使用Google翻译API 将这些informal语句翻译成其他语种（比如法语），然后又翻译回英语。如下图所示:

其中，informal语句可以从网上论坛上收集得到。

表示收集到的第i条句子(informal)，是最后翻译回的句子(formal), 二者构成了一个新的语句对。

本方法同时使用CNN构建了一个“格式判别器”：用来给一个句子的“正规”程度打分。就是上图中右边括号内的小数。最终选出的新数据集要求如下：

其中表示句子的“正规”程度，是阈值

multi-task transfer (M-Task)

我们观察到，formal语句通常语法正确，而informal语句的语法经常出错。

前人研究表明，对FST的输出再使用一个语法错误纠正模型（ grammatical error correction model，GEC）可以提高模型效果。受此启发，本论文直接使用GEC的训练数据作为增强的新数据集。如下图

模型训练

上面提到的seq2seq模型为Transformer (base)。

本论文首先使用增强的新数据用于预训练，然后使用原始语料数据做微调，将这称为 pre-training & finetuning (PT&FT) 方法。下面结果证明了PT&FT的效果优于ST方法。ST是把增强数据和原数据一起训练。

下图展现了三种数据增强方法的效果：

下图展现了我们的方法与前人模型的比较结果：

说个正事哈

由于微信平台算法改版，公号内容将不再以时间排序展示，如果大家想第一时间看到我们的推送，强烈建议星标我们和给我们多点点【在看】。星标具体步骤为：

（1）点击页面最上方“深度学习自然语言处理”，进入公众号主页。

（2）点击右上角的小点点，在弹出页面点击“设为星标”，就可以啦。

感谢支持，比心。

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐两个专辑给大家：

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

专辑 | 情感分析


整理不易，还望给个在看！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。