读论文笔记1:Text Smoothing: Enhance Various Data Augmentation Methods on Text Classification Tasks

初读论文,不准确之处敬请谅解,欢迎指正

参考文献:[Text Smoothing: Enhance Various Data Augmentation Methods on Text Classification Tasks](https://aclanthology.org/2022.acl-short.97) (Wu et al., ACL 2022)

一.生词:

low-resource regime        低资源状态

data augmentation        数据增强

alleviate overfitting        缓解过拟合

semantically        语义

context augmentation        语境

LTSM        长短期记忆

sampling        采样

MLM        屏蔽语言模型

bi-directional        双向

contextual-compatible        上下文兼容

word embedding matrix        词的矩阵嵌入

sentiment classification        情感分类

supervision        监督

interpolate        插入

interpolation        插值

derived from        源于

interpolation operation        插补运算

prepending        预算

prompt        提示

部分术语:

one-hot representation: a vector of the vocabulary size with only one position is 1 while the rest positions are 0(一个词库大小的向量,只有一个位为1,其它位为0)

EDA:包含synonym replacement(同义词替换)、random insertion(随机插入)、random swap(随机交换)、random deletion(随机删除)四种运算

Back Translation:翻译过去再翻译回来

CBERT:用预先训练好的BERT获得语义替换

BERTexpand, BERTprepend:通过在给定类的所有示例前添加类标签来调整BERT

GPT2context:给预先训练好的GPT提示并且不断生成文本

BARTword, BARTspan:通过在给定类的所有示例前添加类标签来调整BART(BARTword标单个词,而BARTspan标连续的整块)

这篇文章讲述的是关于data augmentation(数据增强)的方法,名为text smoothing

通过converting a sentence from its one-hot representation to a controllable smoothed representation(将一个句子从独热编码表示转化为可控的平滑表示)(在低资源状态下进行)

实验代码的地址为:https://github.com/caskcsg/TextSmoothing.

实验原理图如下:

核心步骤:

We combine the two stages as text smoothing: obtaining a smooth representation through MLM and interpolating to constrain the representation more controllable.(获得smooth representation和插入其约束表达更加可控)

obtaining a smooth representation:

 (ti为独热编码)

 smooth representation:        

再运行mixup strategy(混合策略),得到的

即为所求

实验基准方法:

 EDA、Back Translation、CBERT、BERTexpand, BERTprepend、GPT2context、BARTword, BARTspan

实验采用了3个文本分类数据集:SST-2、SNIPS、TREC

实验结果:

 可以看出其在低资源状态下的数据增强还是很有效的

 

  

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值