Difficult Samples Re-embedding via Mutual Information Constrained Semantically Oversampling

EMNLP2021
在这里插入图片描述

Introduction

不平衡样本分类可以通过对少数样本过采样或是对多数样本欠采样的方式解决,或者使用GAN进行采样使得采样之后的数据仍然遵循原始数据分布。当然,之前读过的数据增强MixText也是一种方法。
但是,少数类的困难样本通常很难被分类,因为它们嵌入到与多数类重叠的语义区域。比如,如图所示:
在这里插入图片描述
如Traditional Embedding展示的那样,红色的重叠区域的样本识别往往是困难的,因为它们在表面形式(例如,n-gram或语法)方面与Mahority样本相似。例如,在数据集Yelp.P中,

my parents didn’t want to go back to beautiful Miami

这是一个困难样本,这是一个表示否定的句子。但是,这与表示积极情绪的句子(Majority样本)

the beauty of Miami made Jessie reluctant to go back

过于相似(也就是语义纠缠),因此模型在识别困难样本的表象往往不佳:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五月的echo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值