ACL2020:半监督文本分类模型MixText,智取标记数据稀缺问题

⬆⬆⬆  点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

前言:

在少样本的半监督训练场景下,为避免过拟合现象,数据增强技术显得尤为重要。深度学习视觉领域中,我们对图像进行旋转、镜像、转换灰度等简单操作就可以在样本标签不变的条件下实现数据增强。然而在NLP中,文本数据是离散的,我们很难通过简单的转换来生成大量语义不变的扩充样本。那么,如何攻克文本数据增强这一难题,在标注数据有限的情况下提高模型的泛化能力呢?本期AI TIME PhD直播间,我们有幸邀请到佐治亚理工学院博士生陈佳奥,为大家分享他作为一作在ACL2020中发表的一篇关于MixText 半监督文本分类模型的工作。

陈佳奥,佐治亚理工学院 PhD in CS,导师为Diyi Yang。主要研究方向为自然语言处理和机器学习,已在相关领域的国际顶级会议如ACL, NAACL, AAAI等发表多篇论文。

一、背景

1.

基于少量标记数据的半监督学习

尽管深度学习模型往往表现很好,但通常是基于大量有标签数据的监督学习。当数据只有少量有限的标签时,就会出现过拟合现象,这时需要耗费大量人力和财力来标记数据。实际中,尤其是低资源小语种语言、以及网络社交媒体等场景下,获取大量标注数据的高昂成本让研究者们望而却步。

为了降低监督任务对于标签数据的需求,一种同时有效利用少量已标注数据和大量未标注数据的学习范式——半监督学习技术倍受关注。

2.

现有的半监督文本分类方法

目前半监督文本分类模型主要分为以下四类:

(1)利用变分自编码器(VAEs, variational auto encoders)重构句子,通过重构学习到的隐变量来预测其标签。

(2)利用自监督学习,即用已标注数据训练初始分类器,对未标注数据进行预测,将分类置信度较高的文本加入已标记数据中,重新训练分类器。但该模型存在一些缺点,比如早期的错误标注会在迭代中逐渐被放大、导致错误累积。

(3)添加对抗噪声后进行一致性训练,或使用数据增强。

(4)使用大规模无标签数据进行预训练,然后使用有标签数据进行微调(finetuning)。

然而上述模型仍然存在一大缺陷&

  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值