来源:CD-Make2020
链接: Improving short text classification through global augmentation methods
mixup
摘要
我们研究了不同文本增强方法的效果。为此,我们使用了3个数据集,包括社交媒体和新闻文章形式的正式文本。我们的目标是为从业者和研究人员提供关于为分类用例的扩展做出选择的见解。我们注意到,当不能访问正式的同义词模型(如基于wordnet的扩展)时,基于word2vecs的扩展是一种可行的选择。mixup的使用进一步提高了所有基于文本的增强的性能,并减少了过拟合对经过测试的深度学习模型的影响。由于成本的原因,使用翻译服务的往返翻译更难使用,因此在正常和低资源用例中都难以访问。
关键词:自然语言处理·数据增强·深度神经网络·文本分类
1 引言
在本文中,我们着眼于自然语言处理(NLP)应用中的数据扩充。受到计算机视觉应用[4]中数据增强的不断使用的鼓舞,我们希望能够为研究人员和实践者提供对NLP任务的增强更好的理解。增强已经受益于许多图像分类任务[4],改变图像的结构以增加机器学习算法可用的样本数量,同时在最终的模型中引入弹性。增强文本数据以创建健壮的模型有不同的成功因素。有些方法需要比其他[19]更直接的语言信息,而另一些方法则更不可知,因为已知可以使用[16]的学习语言模型。
在过去的几年中,分布式词表示(词嵌入)[20]的发展改进了文本中词之间语义关系的建模。这创造了许多理解文本的新方法,在这个工作中,文本分类任务。为了提高分类精度,同时使模型更加鲁棒,数据增强可以视为一种提高性能和鲁棒性的方法。最近,无监督语言模型的发展,使我们有可能使用更多的数据驱动语言模型,这些模型可以与数据增强方法相结合,以提高NLP机器学习模型的性能和鲁棒性。
我们受到许多因素的激励。我们希望能够训练不一定有大量标记数据的分类模型。数据标签是有代价的。无论是识别假新闻[17],了解政治现象[27],对政府服务的反馈[29],还是在紧急情况下更好的协调[14],获得标签总是具有挑战性的。因此,知道建立机器学习模型需要大量的数据,我们仍然需要能够用更小的数据建立模型。大型组织可能会访问大数据集,以及对其中一大块进行标记的资源。一个较小的组织往往没有大的数据和更少的资源来标记。为了进一步扩展分类器的使用,而不仅仅是输入信息的分布,我们需要能够以一种方式改变输入数据,使最终学习的模型对输入分布的轻微变化更健壮。这可能是由于语言的进化,甚至是地理的变化。另一个用途是在半监督学习中,我们使用我们必须创建一个分类器(可能有噪声)的少数标签来标记更多的未标记数据,然后将这些数据反馈给另一个分类器。
在本文中,我们的贡献是对一些数据增强方法的简短调查,特别是着眼于以更全面的视角增强数据的方法。也就是说,该方案从全局视角而不是上下文相关的局部视角替换相似词。那么类似的单词是如何在文本中使用的,而不是在这个特定文档的这个特定句子中最好替换什么单词。我们讨论了使用语言特征的方法,一个使用翻译服务的模型,然后是作用于嵌入/语言模型的增强方法。为了更好地理解增强方法的行为,我们在多个条件下对多个分类数据集上的方法进行了评估,并对不同的方法提供了见解。我们还展示了混合[34]方法作为一种增强方法对自然语言处理任务的影响。本文的组织结构如下:我们首先介绍不同的文本增强方法。我们比较研究的方法在第3节中描述。第4节讨论实验结果,然后在第5节中得出结论。
2 文本增强方法
对于许多机器学习任务,数据增强已经被用作一种正则化方法,同时训练监督机器学习模型。在训练过程中,向模型输入的示例越多样化,模型就能更好地一般化,因此,当出现新的示例时,它们的预测也就越好。数据增强在图像、音频和最近的文本中都得到了广泛的应用。
两种方法: 文本源扩展和文本表示扩展
2.1 文本源扩展
同义词扩展
我们首先从使用语言特征的方法开始。增强数据的最好方法是使用人工改写句子,但这是昂贵的。因此,对于大多数作者来说,在数据增强中最自然的选择是用同义词替换单词或短语。在各种上下文中,动词和名词是最好的具有同义词的名称类。流行的开放源代码英语词汇数据库是WordNet[21]。它将名词、动词、形容词和副词等词组合成一组认知同义词,每组同义词表示不同的概念,并提供简短的定义和用法实例,并记录这些同义词集之间的一些关系。因此,WordNet表面上类似于一本同义词典,因为它根据它们的意思把单词组合在一起。然而,WordNet的区别是,它标记了单词之间的语义关系,并将单词形式和特定于单词含义的字母串连接起来,从而使在网络中彼此接近的单词在语义上消除了歧义。图1作为WordNet显示了同义词增广的一个很好的例子。
基于叙词表的增强方法已被应用于长短时记忆(LSTM)网络的暹罗适应性训练,以评估句子[22]之间的语义相似性。Zhang et al。[35]使用WordNetbased增强方法来增强他们的训练数据通过使用几何函数来帮助从一个给定的数据集,选择单词使用选定的词来找到他们的同义词来训练时间卷积网络学习文本从人物等级输入到抽象理解文本的概念。
语义相似性扩展
使用分布式词表示(词嵌入)[20],可以识别语义相似的词[16]。这种方法需要预先为现有语言训练好的词嵌入模型,或者来自目标应用程序的足够数据来构建嵌入模型。因此,这种方法不需要访问某一语言的字典或同义词典来查找同义词。这对那些资源可能很难获得,但可能有足够多的无监督文本数据来构建嵌入模型的语言有利。随着建立完整的语言模型的最新进展[25,7,24,10],进一步的进展可以用于识别词语增词的句法和语义相似度。
在本文中,我们不探讨语言模型的使用。我们可以将语言模型看作是在句子的局部语境下,对单词进行更局部化的替换。另一方面,词嵌入提供了一个全局上下文。像[7]这样的语言模型允许在句子的任何部分填空。而其他语言模型更适合填充句子[25]中下一个缺失的单词,从左到右阅读一个句子,然后填充句子末尾缺失的单词。这种探索仍然是未来工作的一个领域。
双向翻译(RTT)
2.2 表示扩展
对源文本的扩充要求我们能够访问一种方法来替换源文本中的单词,以创建更多的例子,同时保持整个句子的意思相同。在本小节中,我们提出了一种方法,该方法是作为深度神经网络的正则化技术引入的,但可以视为对文本表示起作用的增强。我们讨论对输入和输出都起作用的混淆。
mixup增强
在[34]中引入的mixup可以看作是一种增强方法,它可以被归类为表示上的增强。mixup是数据无关的,在原始论文中应用于图像、语音和表格数据。mixup通过从原始数据中绘制样本(两个或两个以上的样本集)并凸组合它们来创建新的训练示例。它结合了数据的输入和输出。作者建议的最简单的实现是,通过从初始数据集中获取成对的样本,并对输入和输出进行凸相加,创建一个新的增广数据集。
总结
在AG新闻或长文本上使用基于wordnet的同义词扩充确实导致了从数据库中找到的大多数单词。因此,这些单词被增强的概率更高,所产生的增强数据不会改变消息的含义。因此,与基于RTT和基于word2vic的方法相比,基于wordnet的扩展方法是一种丰富的扩展。基于Word-Net的增强方法高度依赖于现有数据库。因此,缺点是当这样的数据库不能用于资源较少的语言时,首先需要以很高的成本创建它。增加低资源语言的另一种方法是使用无监督的词嵌入模型,这些模型可以在预先收集的可用语料库(如维基百科、报纸或文学)上使用Glove、Word2vec和fastText[15]进行训练。模型中的向量表示可以通过余弦相似度来识别最近的邻居(例如在基于Word2vec的增强中使用)。这种方法对于从低资源语言中扩展数据变得更加可行。本文实验表明,基于Word2vec的情感增强方法与基于同义词的情感增强方法在情感140上有较好的可比性,这表明仅使用Word2vec就可以实现情感增强。即使在AG新闻上,基于word2vec的增强也是有竞争力的。
基于rtt的增强在很多方面都很昂贵。如果使用在线服务,可用的商业服务需要财务资源。免费版只能免费翻译几千字。如果想要降低成本,那么可以训练或使用预先训练好的神经机器翻译模型。但是商业强度等级的翻译模型很难得到,并且需要大量的数据来训练(这是另一种成本)。因此,它们对于资源较低的语言更不可行。我们只能在AG新闻和社交媒体仇恨言论的较小数据集上使用RTT增强。即便如此,我们还是不得不使用两种不同的服务(谷歌和亚马逊)来降低成本。在我们的学术背景下,在非常大的数据集上使用RTT是不可行的,需要进一步的研究。
未来的工作有许多途径。我们提供了实验来证明不同的增强方案在公平竞争环境中的有效性。使用语言模型进行更多的局部上下文扩展是扩展这项工作的一个途径。另一个途径是研究如何使用增强来提高低资源语言的半监督学习。考虑到mixup的成功,我们可以探索其他的方法来增加数据作为一种正规化的方式。