CONTAINER: Few-Shot Named Entity Recognition via ContrastiveLearning

论文核心

是在小样本NER任务中,使用对抗学习,利用对抗学习,使得相近的实体之间的距离减少,拉大无关联的实体之间的距离。

 

效果表现为:CONTAINER 减少了同一类别(PLACE)的标记之间的嵌入距离,同时增加了不同类别(QTY. 和 O)之间的距离。

CONTAINER tries to decrease the distance of token embeddings of similar entities while increasing it for dissimilar ones (Figure 1).这可以使得containNER更高的捕捉到label之间的依赖关系。

创新点

  1. CONTAINER that leverages contrastive learning to infer distributional distance of their Gaussian Embeddings.
  2. the first to leverage Gaussian Embedding in contrastive learning for Named Entity Recognition.

任务建模

给定一个序列,识别每个token所对应的label。其中,tag schema:使用IO tagging,I-type表示tokens在一个entity内。

我们首先在source domain中训练我们的模型。接下来,我们使用少量样本支持集(target domain dataset)对模型表示进行微调,以使其适应目标域。 CONTAINER 的训练和微调在算法 1 中进行了说明。最后,我们使用实例级最近邻分类器在测试集中进行推理。

Training in Source Domain:

高斯分布计算

映射函数,将token的embedding,映射得到均值和方差。

 

如果两个token的label相同,则认为他们是一对正例,在给出他们高斯分布的基础上,可以计算KL散度。KL散度有方向性。。。。

(21条消息) 正向KL散度与反向KL散度_风吹草地现牛羊的马的博客-CSDN博客_反向kl散度

 

loss计算
 

对于label都是p的,p和q实例,损失计算公式是:

 Finetuning to Target Domain using Support Set

对于多个shot的条件,采用KL-divergence of the distributions.

对于1-shot的条件,采用欧几里得距离。d 0 (p, q) = ||µp − µq||2 

nearest neighbor inference是找到测试集中与dev set中最相近的token,标注的label与dev set中找到的最相近的data的label相同。we assign x test i the same label as the support token that is nearest in the PLM representation space

 

 

总结

在对抗学习上,可以使用域迁移。

但是,对抗学习的目标函数,这篇文章和以往不太同,这篇用的是高斯分布的embedding的相似度,之前,好像不这么干,为啥一定要用分布呢。其他的目标函数,应该也能达到“相近实体之间距离尽可能接近,不同类别实体之间距离尽可能加大”的目标吧???

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值