[论文阅读笔记23]MixText:TMix数据增强的MixText半监督方法去文本分类

1. 题目

ACL20-《MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification》。
论文下载地址:https://arxiv.org/pdf/2004.12239
论文开源地址:https://github.com/GT-SALT/MixText

2. 作者

Jiaao Chen Georgia Tech jchen896@gatech.edu 佐治亚理工学院(世界排名33)
Zichao Yang CMU zichaoy@cs.cmu.edu 卡内基梅隆大学
Diyi Yang Georgia Tech dyang888@gatech.edu 佐治亚理工学院

3. 摘要

使用带有TMix数据增强的MixText半监督方法去文本分类,超过了state-of the-art的水平。

动机:从两个隐藏向量的插值中解码会产生一个新句子,新句子混合了两个原始句子的含义。

4. 模型

以前的一些半监督模型

(1)variational auto encoders (VAEs):变分自编码重构句子;
(2)鼓励模型对无标注的数据输出预测置信度—自训练;
(3)数据增强或加入对抗噪音后执行一致性训练;
(4)大规模数据预测训练,然后再用带标注数据进行微调;
缺点:这些方法,容易出现过拟合。
TMix

本文的方法受Mixup的启发,提出了TMixTMix是文本隐藏空间中的插值(interpolation in textual hidden space

image-20210225102814828

输入两个样本x与x’,y与y’, 首先计算x,x’的隐表示,然后在它们隐表示空间对输入样本进行混合处理。这样就可表示出无穷多个新数据了,因此也是可以防止过拟合。

低层的编码:

image-20210226143012708

gl(.)表示编码网络;l表示层。

高层混合:

image-20210226143247310

这个公式的意思为:第m层进行对混合,然后再向高层计算直到L层。

TMix总体表达公式为:

image-20210226143625675

整过过程看成关于TMix(.)函数的计算,g表示编码模型(例如神经网络编码或者某个编码函数), λ表示混合参数,每batch的数值获取来自Beta分布:

image-20210226144200425

α是分布的超参。

另外,论文在实验时,采用bert来作为句子的编码器,并在选择数据层输出时,选择了 M = {7, 9*,* 12*}*. 选择依据时按照之前的bert分析结论来获取,这样选择会更侧重于句子的句法与句义。同时论文也做了实验去决定为什么选择这三层:

image-20210226145021118

TMix主要是做数据增加,它所可以做的下游任务可是文本分类,或者其它的任务。

**MixText**分类模型

image-20210226154017897

基于这种数据增加的方法,提出了文本分类模型MixText,MixText的核心Idea是基于标注与无标注数据之前的半监督学习:

首先对于未标注数据预测一个低熵标签;

然后使用TMix去混合标注的与无标注的数据。—使用了数据增加技术

MixTex挖掘训练样本之间的隐关系,并把从非标注数据中学习到信息应用到标注数据中进行训练。

MixText的组成部分

a. Data Augmentation—数据增强

Back translations (回译方法),每条无标注句子通过回译的方法生成k句。

b. Label Guessing – 标签猜测

加权平均来获取y,然后为了防止平均过于单一,这里选择Sharpen(.)函数预测标签。

image-20210226155351853

image-20210226155654384

这个是对于无标注数据增强后的处理方法,这里的p表示模型预测出来的概率。

c. TMix on Labeled and Unlabeled Data–合并标签与无标签数据。

随机选择两个句子输畋到TMix(.)函数中进行混合,使用了KL-divergence作为损失函数:

image-20210226160525818

上面的采样具有很大的随机性,根据选择数据不同,可以分为两类:

当数据都是来自标注数时,这个时候叫做:Supervised loss – 监督损失函数

当数据从无标注数据或增强后的数据中采样时,叫做:Consistency loss–一致性损失

d. Entropy Minimization – 熵最小化

为了使用模型对于无标注数据输出可信的标签,提出了最小化预测的概率熵作为自训练的损失函数:

image-20210226161018106

最后的损失函数为:

image-20210226161130535

5. 实验结果

数据集

image-20210226161431243

运行结果:

image-20210226161452067

image-20210226161654432

相关工作

Pre-training and Fine-tuning Framework

Semi-Supervised Learning on Text Data

Interpolation-based Regularizers–基于抽值的正则化

Data Augmentations for Text

另外,半监督技术:

方法思想论文说明
selftarget-prediction2016-Temporal ensembling for semi-supervised learning这两个模型,分别为П-model与Temporal ensembling模型。笔记
entropy minimization2004-Semisupervised learning by entropy minimization
consistency regularization2019 - Mixmatch: A holistic approach to semisupervised learning ; 2019-Unsupervised data augmentation for consistency training

参考

[1]NLP之MixText 半监督文本分类(2020年4月论文解读), https://zhuanlan.zhihu.com/p/156091468

happyprince; https://blog.csdn.net/ld326/article/details/114138379

interpolate

英[ɪnˈtɜ:pəleɪt] 美[ɪnˈtɜrpəleɪt]

v. 插入,插(话);篡改

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值