论文核心
是在小样本NER任务中,使用对抗学习,利用对抗学习,使得相近的实体之间的距离减少,拉大无关联的实体之间的距离。
效果表现为:CONTAINER 减少了同一类别(PLACE)的标记之间的嵌入距离,同时增加了不同类别(QTY. 和 O)之间的距离。
CONTAINER tries to decrease the distance of token embeddings of similar entities while increasing it for dissimilar ones (Figure 1).这可以使得containNER更高的捕捉到label之间的依赖关系。
创新点
- CONTAINER that leverages contrastive learning to infer distributional distance of their Gaussian Embeddings.
- the first to leverage Gaussian Embedding in contrastive learning for Named Entity Recognition.
任务建模
给定一个序列,识别每个token所对应的label。其中,tag schema:使用IO tagging,I-type表示tokens在一个entity内。
我们首先在source domain中训练我们的模型。接下来,我们使用少量样本支持集(target domain dataset)对模型表示进行微调,以使其适应目标域。 CONTAINER 的训练和微调在算法 1 中进行了说明。最后,我们使用实例级最近邻分类器在测试集中进行推理。
Training in Source Domain:
高斯分布计算
映射函数,将token的embedding,映射得到均值和方差。
如果两个token的label相同,则认为他们是一对正例,在给出他们高斯分布的基础上,可以计算KL散度。KL散度有方向性。。。。
(21条消息) 正向KL散度与反向KL散度_风吹草地现牛羊的马的博客-CSDN博客_反向kl散度
loss计算
对于label都是p的,p和q实例,损失计算公式是:
Finetuning to Target Domain using Support Set
对于多个shot的条件,采用KL-divergence of the distributions.
对于1-shot的条件,采用欧几里得距离。d 0 (p, q) = ||µp − µq||2
nearest neighbor inference是找到测试集中与dev set中最相近的token,标注的label与dev set中找到的最相近的data的label相同。we assign x test i the same label as the support token that is nearest in the PLM representation space
总结
在对抗学习上,可以使用域迁移。
但是,对抗学习的目标函数,这篇文章和以往不太同,这篇用的是高斯分布的embedding的相似度,之前,好像不这么干,为啥一定要用分布呢。其他的目标函数,应该也能达到“相近实体之间距离尽可能接近,不同类别实体之间距离尽可能加大”的目标吧???