A Multi-Level Optimization Framework for End-to-End Text Augmentation

A Multi-Level Optimization Framework for End-to-End Text Augmentation 端到端文本增强的多级优化框架(2022)

*tips:文本增强可以减轻数据缺乏的弊端并有效减轻过拟合。
代码: https://github.com/Sai-Ashish
/End-to-End-Text-Augmentation.

摘要

我们提出一个三层优化框架执行文本增强以适应下游端到端的任务。
模型分为三层:文本摘要模型(has a weight,考虑到每个摘要训练对会存在差异,所以每一个都有权重,表示差异的大小,即权重越小,代表差异越大,越不重要),会保留原始文本的主要语义,剔除掉不重要的文本,原文与摘要之间的语义种类很丰富,所以会达到创造多样性的目的;初步文本分类模型;评估更新分类模型,以降低损失。
在这里插入图片描述

文本增强的方法:
back translation(用于机器翻译,借助另一种语言作为媒介,再翻译回原始的语言)
synonym replacement(基于Word embedding后的词的余弦相似度计算)
random insertion(在隐藏空间插入输入文本)
dependency tree(一是忽略依赖关系来分割句子,二是以根为中心的树片段来旋转句子)
random replacing(在输入和target中从字典中随机替换)
transformer,gpt-2,bert,bart
EDA(同义词替换、随机插入、随机交换和随机删除,但是这个操作会导致输入信息的丢失,也会改变输入序列的标签,会误导网络)
GECA(一种组合数据增强方法,通过用出现在相似上下文中的其他片段替换真实示例中的文本片段来构建合成训练示例)
LAMBADA(该方法首先在真实训练数据上对语言模型进行微调,然后将类标签输入微调后的模型以生成增强句子)
Sum-Sep(首先训练一个提炼模型,用它来进行数据增强,然后在增强的训练数据上训练分类模型)\Multi-task learning (MTL,通过最小化单个目标函数来训练总结模型和分类模型,该目标函数是总结和分类损失的加权和)

当前的文本增广都是与下游任务分离的,先进性数据增广,然后去训练下游任务,导致文本增广可能并不会对下游模型有效果。
本文提出基于多层优化器的端到端的学习框架,不行增广后的文本能够影响模型的训练,同时下游任务也会影响文本数据增广的方式。
stage 1:BART(会将原文打碎,然后基于原文进行重建,是基于Transformer的一种预训练方法,在理解人物和)
stage 2:BERT
stage 3: optimal
在这里插入图片描述
下面两个式子做一步梯度下降,最上面那个式子做梯度下降。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

实验

对于文本摘要数据,我们使用CNN-DailyMail数据集(参见et al, 2017)。它包含大约30万篇新闻文章的摘要。完整的CNN-DailyMail训练集用于训练摘要模型。
使用了四个文本分类数据集:1)包含电影评论的IMDB (Maas等人,2011),2)Yelp评论:一个二元情感分类数据集(Zhang等人,2015),3)SST-2:斯坦福情感树库(Socher等人,2013),4)亚马逊评论:一个来自亚马逊的产品评论数据集(McAuley和Leskovec, 2013),如下表:
在这里插入图片描述
文本分类——EDA中的文本分类模型
input layer->BiLSTM(64)->dropout(0.5)->BiLSTM(32)->dropout(0.5)->RELU->dense(20)->softmax
seq-length=150
loss function :cross-entropy loss
optimization:Adam(10e-3) , β1和β2设为0.5和0.999
lr: 3*10e-4
batch size :8

summarization——BART(六层解码器和编码器)
text length:1024
optimization: SGD momentum=0.9 lr:5*10e-4

metrics: accuracy,mean,std

实验结果

基于以上四个数据集随机选用5%、10%、20%、50%、75%、100%的数据进行实验,将结果与No-Aug,EDA,GECA,LAMBADA,Sum-Sep,MTL进行对比,我们的方法在每种情况下都较高。
模型高于其他模型是因为其他方法都是与后续任务分裂的,会存在无法将后续结果反馈回数据增强并且前者也不会帮助后者减少损失。
EDA会产生更多的噪音,一个句子会产生8-16个新句子,但是准确率不太高。
我们的模型在Yelp,IMDB,Amazon这三个文本较长的数据集表现也高于其他方法。

结论

关键结论包括:1)我们提出的端到端增强方法比分别进行增强和分类的基线性能更好;2)我们的框架对分类模型的选择是不可知的,可以用于改进各种分类器;3)当训练样本数量较少时,我们的框架特别有效;4)当输入文本的长度较大时,我们的框架更有效。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

2674222

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值