论文浅尝 | 低资源文本风格迁移数据集

最新推荐文章于 2024-05-24 23:53:52 发布

开放知识图谱

最新推荐文章于 2024-05-24 23:53:52 发布

阅读量1.7k

点赞数

本文链接：https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/106270598

版权

来源：AAAI2020

论文链接：https://www.msra.cn/wp-content/uploads/2020/01/A-Dataset-for-Low-Resource-Stylized-Sequence-to-Sequence-Generation.pdf

概述：

低资源样式化的序列到序列（S2S）生成是高需求的。但由于数据集在规模和自动评价方法上的局限性，阻碍了其发展。作者为低资源风格化的S2S构建了两个大规模、多参考数据集：易于评估的机器翻译形式语料库（MTFC）和解决聊天机器人中一个重要问题的Twitter会话形式语料库（TCFC）。这些数据集包含上下文到源样式的并行数据、源样式到目标样式的并行数据以及目标样式中的非并行语句，以实现半监督学习。作者提供了三个基线：基于轴的方法、师生方法和反向翻译方法。作者发现基于轴的方法是最差的，另外两种方法在不同的度量基准上获得了最好的效果。

论文介绍：

S2S框架（Sutskever、Vinyals和Le 2014）近年来取得了巨大成功。然而，大量的任务要求S2S模型在没有大量并行数据的情况下生成特定风格的文本，例如chatbots中的正式响应生成，这是一种需求量很大但性能不太好的方法（Shum、He和Li 2018）。表1显示，正式回复对于聊天机器人非常重要，特别是在客户服务领域。

我们研究了低资源模式化的序列到序列生成问题。通常情况下，上下文到目标样式的句子对是不可用的，但是足够的上下文到源样式的句子对很容易收集。例如，在Twitter上可以很容易地获取非正式会话数据，但是很难找到非正式消息和正式响应文本对（Li等人。2016年b）。通过上下文到源风格的句子对，可以通过群体寻源来构建源风格到目标风格的句子对。在这种方式下，语境和目的语风格的句子是通过源语风格的句子连接起来的，这是与非平行风格转换任务的主要区别（Shen et al。2017年）

在这样的假设下，作者通过扩展Grammarly的Yahoo-Answers形式语料库（GYAFC）（Rao和Tetreault 2018），引入了两个基准数据集：Twitter会话形式语料库（TCFC）和机器翻译形式语料库（MTFC）。这两个数据集都关注于特定的样式、形式，并且包含大量的训练数据以及人工注释的多参考测试数据。具体来说，Twitter会话形式语料库旨在教会一个代理以一种正式的方式回应人类。作者准备了170万条来自Twitter的非正式消息响应对，以及52595条来自GYAFC的非正式到正式的英语文本对用于培训。关于模型验证，作者要求以英语为母语的人将2000个非正式的回答改写成正式的风格。

尽管程式化会话在现实世界中有许多潜在的应用，但很难对其进行评估（Liu et al。2016年）。基于此，作者进一步构建了一个更容易评价的任务，即机器翻译形式语料库。MTFC由1500万个非正式的中文到非正式的英文文本对组成，这些文本对是从OpenSubtitle数据集中仔细筛选出来的（Lison和Tiedemann，2016年）。非正式到正式的英语文本对也是从GYAFC借来的。为了调试和测试，作者要求人工注释者创建3000多个人工注释的非正式汉语到正式英语对。对于这两个数据集，我们进一步准备了大规模的非并行形式语句，以便能够训练半监督方法（Sennrich、Haddow和Birch 2016a）。

由于这项任务可以被视为一个特定的多语言机器翻译问题，作者采用了三种低资源机器翻译的方法作为基线：1）基于枢轴的方法（Cohn和Lapata 2007），以流水线的方式进行风格化的S2S生成；2）师生模型（Chen等人。2017）通过知识蒸馏解决错误传播；3）能够利用非并行数据的反向转换方法（Sennrich、Haddow和Birch 2016a）。实证结果表明，以轴为基础的模型是最差的，说明采用最先进的序列到序列模型和样式转换模型相结合的方法不能很好地解决这一问题。