LADA:Local Additivity Based Data Augmentation for Semi-supervised NER理解

介绍

NER时深度语言理解的第一阶段,然而,目前的NER模型极大地依赖人工标注的数据。在本次工作中,为了脱离对于有标签数据的依赖,我们提出LADA方法用于半监督NER,通过插入相近的句子生成虚拟数据。我们的方法有两种:Intra-LADA 和 Inter-LADA,Intra-LADA 插入同一个句子中的token,Inter-LADA 采样不同的句子插入。通过采样训练数据的线性添加,LADA 生成了大量的有标签数据,提升了实体和文章理解。我们通过设计一个新的一致性的 loss进一步扩展LADA到半监督。实验在两种基准下实施,证明了我们方法的有效性。

传统ner模型从字典到神经网络到迁移学习都是依赖于大量丰富的有标签数据,由于缺少有标签数据,使得这些模型很难应用于新领域。不同的NLP数据增强方法可以分为两类:① 在token层面的对抗性攻击,例如词替换和增加噪音。 ② 在句子层面的解释,例如反向翻译或者子模块优化模型。前者被广泛使用,后者由于很难维持实体token的一致性,很难应用于NER任务。

我们使用了另外一种数据增强方法mixup,原始用于文本分类。但文本分类是单标签任务,与NER不同。我们引入了LADA限制mixup方法中的样本应该相近。Intra-LADA用来自同一句子的token插入每个token的隐藏层表示。Inter-LADA用来自k近邻采样随机采样的加权组合的其他句子token插入每个token的隐藏层,权重控制了噪声和正则化之间的精妙权衡。

论文中介绍了LADA模型以及其他三种数据增强的方法

1. LADA

在中间模型中混合两个句子的隐藏层参数

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值