ACL2020：半监督文本分类模型MixText，智取标记数据稀缺问题

AITIME论道

于 2020-09-15 14:09:22 发布

阅读量1.5k

点赞数 2

文章标签：算法机器学习人工智能深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AITIME_HY/article/details/108613503

版权

⬆⬆⬆ 点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

前言：

在少样本的半监督训练场景下，为避免过拟合现象，数据增强技术显得尤为重要。深度学习视觉领域中，我们对图像进行旋转、镜像、转换灰度等简单操作就可以在样本标签不变的条件下实现数据增强。然而在NLP中，文本数据是离散的，我们很难通过简单的转换来生成大量语义不变的扩充样本。那么，如何攻克文本数据增强这一难题，在标注数据有限的情况下提高模型的泛化能力呢？本期AI TIME PhD直播间，我们有幸邀请到佐治亚理工学院博士生陈佳奥,为大家分享他作为一作在ACL2020中发表的一篇关于MixText 半监督文本分类模型的工作。

陈佳奥，佐治亚理工学院 PhD in CS，导师为Diyi Yang。主要研究方向为自然语言处理和机器学习，已在相关领域的国际顶级会议如ACL, NAACL, AAAI等发表多篇论文。

一、背景

1.

基于少量标记数据的半监督学习

尽管深度学习模型往往表现很好，但通常是基于大量有标签数据的监督学习。当数据只有少量有限的标签时，就会出现过拟合现象，这时需要耗费大量人力和财力来标记数据。实际中，尤其是低资源小语种语言、以及网络社交媒体等场景下，获取大量标注数据的高昂成本让研究者们望而却步。

为了降低监督任务对于标签数据的需求，一种同时有效利用少量已标注数据和大量未标注数据的学习范式——半监督学习技术倍受关注。

2.

现有的半监督文本分类方法

目前半监督文本分类模型主要分为以下四类:

（1）利用变分自编码器(VAEs, variational auto encoders)重构句子，通过重构学习到的隐变量来预测其标签。

（2）利用自监督学习，即用已标注数据训练初始分类器，对未标注数据进行预测，将分类置信度较高的文本加入已标记数据中，重新训练分类器。但该模型存在一些缺点，比如早期的错误标注会在迭代中逐渐被放大、导致错误累积。

（3）添加对抗噪声后进行一致性训练，或使用数据增强。

（4）使用大规模无标签数据进行预训练，然后使用有标签数据进行微调(finetuning)。

然而上述模型仍然存在一大缺陷&

最低0.47元/天解锁文章

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
ACL2020：半监督文本分类模型MixText，智取标记数据稀缺问题

⬆⬆⬆ 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入！前言：在少样本的半监督训练场景下，为避免过拟合现象，数据增强技术显得尤为重要。深度学习视觉领域中，我们对图像进行旋转、...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。