⬆⬆⬆ 点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
前言:
在少样本的半监督训练场景下,为避免过拟合现象,数据增强技术显得尤为重要。深度学习视觉领域中,我们对图像进行旋转、镜像、转换灰度等简单操作就可以在样本标签不变的条件下实现数据增强。然而在NLP中,文本数据是离散的,我们很难通过简单的转换来生成大量语义不变的扩充样本。那么,如何攻克文本数据增强这一难题,在标注数据有限的情况下提高模型的泛化能力呢?本期AI TIME PhD直播间,我们有幸邀请到佐治亚理工学院博士生陈佳奥,为大家分享他作为一作在ACL2020中发表的一篇关于MixText 半监督文本分类模型的工作。
陈佳奥,佐治亚理工学院 PhD in CS,导师为Diyi Yang。主要研究方向为自然语言处理和机器学习,已在相关领域的国际顶级会议如ACL, NAACL, AAAI等发表多篇论文。
一、背景
1.
基于少量标记数据的半监督学习
尽管深度学习模型往往表现很好,但通常是基于大量有标签数据的监督学习。当数据只有少量有限的标签时,就会出现过拟合现象,这时需要耗费大量人力和财力来标记数据。实际中,尤其是低资源小语种语言、以及网络社交媒体等场景下,获取大量标注数据的高昂成本让研究者们望而却步。
为了降低监督任务对于标签数据的需求,一种同时有效利用少量已标注数据和大量未标注数据的学习范式——半监督学习技术倍受关注。
2.
现有的半监督文本分类方法
目前半监督文本分类模型主要分为以下四类:
(1)利用变分自编码器(VAEs, variational auto encoders)重构句子,通过重构学习到的隐变量来预测其标签。
(2)利用自监督学习,即用已标注数据训练初始分类器,对未标注数据进行预测,将分类置信度较高的文本加入已标记数据中,重新训练分类器。但该模型存在一些缺点,比如早期的错误标注会在迭代中逐渐被放大、导致错误累积。
(3)添加对抗噪声后进行一致性训练,或使用数据增强。
(4)使用大规模无标签数据进行预训练,然后使用有标签数据进行微调(finetuning)。
然而上述模型仍然存在一大缺陷&