[论文阅读笔记23]MixText：TMix数据增强的MixText半监督方法去文本分类

最新推荐文章于 2025-03-23 10:00:00 发布

happyprince

最新推荐文章于 2025-03-23 10:00:00 发布

阅读量1.1k

点赞数

分类专栏：深度学习文章标签：人工智能深度学习神经网络机器学习

本文链接：https://blog.csdn.net/ld326/article/details/114138379

版权

深度学习专栏收录该内容

41 篇文章

订阅专栏

1. 题目

ACL20-《MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification》。
论文下载地址：https://arxiv.org/pdf/2004.12239
论文开源地址：https://github.com/GT-SALT/MixText

2. 作者

Jiaao Chen Georgia Tech jchen896@gatech.edu 佐治亚理工学院（世界排名33）
Zichao Yang CMU zichaoy@cs.cmu.edu 卡内基梅隆大学
Diyi Yang Georgia Tech dyang888@gatech.edu 佐治亚理工学院

3. 摘要

使用带有TMix数据增强的MixText半监督方法去文本分类，超过了state-of the-art的水平。

动机：从两个隐藏向量的插值中解码会产生一个新句子，新句子混合了两个原始句子的含义。

4. 模型

以前的一些半监督模型：

（1）variational auto encoders (VAEs)：变分自编码重构句子；
（2）鼓励模型对无标注的数据输出预测置信度—自训练；
（3）数据增强或加入对抗噪音后执行一致性训练；
（4）大规模数据预测训练，然后再用带标注数据进行微调；
缺点：这些方法，容易出现过拟合。
TMix：

本文的方法受Mixup的启发，提出了TMix，TMix是文本隐藏空间中的插值（interpolation in textual hidden space）。

输入两个样本x与x’，y与y’, 首先计算x,x’的隐表示，然后在它们隐表示空间对输入样本进行混合处理。这样就可表示出无穷多个新数据了，因此也是可以防止过拟合。

低层的编码：

gl(.)表示编码网络；l表示层。

高层混合：

这个公式的意思为：第m层进行对混合，然后再向高层计算直到L层。

TMix总体表达公式为：

整过过程看成关于TMix(.)函数的计算，g表示编码模型（例如神经网络编码或者某个编码函数）， λ表示混合参数,每batch的数值获取来自Beta分布：

α是分布的超参。

另外，论文在实验时，采用bert来作为句子的编码器，并在选择数据层输出时，选择了 M = {7, 9*,* 12*}*. 选择依据时按照之前的bert分析结论来获取，这样选择会更侧重于句子的句法与句义。同时论文也做了实验去决定为什么选择这三层：

TMix主要是做数据增加，它所可以做的下游任务可是文本分类，或者其它的任务。

**MixText**分类模型

基于这种数据增加的方法，提出了文本分类模型MixText，MixText的核心Idea是基于标注与无标注数据之前的半监督学习：

首先对于未标注数据预测一个低熵标签；

然后使用TMix去混合标注的与无标注的数据。—使用了数据增加技术

MixTex挖掘训练样本之间的隐关系，并把从非标注数据中学习到信息应用到标注数据中进行训练。

MixText的组成部分

a. Data Augmentation—数据增强

Back translations （回译方法），每条无标注句子通过回译的方法生成k句。

b. Label Guessing – 标签猜测

加权平均来获取y,然后为了防止平均过于单一，这里选择Sharpen(.)函数预测标签。

这个是对于无标注数据增强后的处理方法，这里的p表示模型预测出来的概率。

c. TMix on Labeled and Unlabeled Data–合并标签与无标签数据。

随机选择两个句子输畋到TMix（.）函数中进行混合，使用了KL-divergence作为损失函数：

上面的采样具有很大的随机性，根据选择数据不同，可以分为两类：

当数据都是来自标注数时，这个时候叫做：Supervised loss – 监督损失函数

当数据从无标注数据或增强后的数据中采样时，叫做：Consistency loss–一致性损失

d. Entropy Minimization – 熵最小化

为了使用模型对于无标注数据输出可信的标签，提出了最小化预测的概率熵作为自训练的损失函数：

最后的损失函数为：

5. 实验结果

数据集

运行结果：

方法思想	论文	说明
selftarget-prediction	2016-Temporal ensembling for semi-supervised learning	这两个模型，分别为П-model与Temporal ensembling模型。笔记
entropy minimization	2004-Semisupervised learning by entropy minimization
consistency regularization	2019 - Mixmatch: A holistic approach to semisupervised learning ; 2019-Unsupervised data augmentation for consistency training