命名实体识别（tricks文章）_improving named entity recognition by external con-CSDN博客

本文链接：https://blog.csdn.net/Hekena/article/details/125373602

Improving Named Entity Recognition by External Context Retrieving and Cooperative Learning

通过外部上下文检索和合作学习提高命名实体识别

外部上下文检索，即尽可能找到与原文本有关的句子和原文本一起喂给模型，达到丰富文本语义的目的。
（通过现成的搜索引擎检索与输入句子相关的文本。我们根据与输入句子的语义相关性对检索到的文本进行重新排序，并选择几个排名靠前的文本作为外部上下文。因此，我们将输入句子和外部上下文连接在一起作为一个新的基于检索的输入视图，并将其提供给预训练的上下文嵌入）
合作学习，这一点，我没太明白，文中给出的解释是让两个输入文本尽可能的相似，为了评估相似性，提出了使用KL散度（概率分布）还有Bert级别的token相似、L2距离。

重排序

BERTScore is a language generation metric that calculates a sum of cosine similarity between token representations of two sentences.
具体操作就是，通过两个句子的token表示[r1,r2,…rn]和[r1,r2,…rm]，计算P、R和F1。这三个指标给出的定义如下：
在这里插入图片描述
计算之后，新的input是原文本和tokens的连接，
x=[sep+raw_text+rerank_text]

实体识别的模型

自然还是seqence labeling，损失函数需要在NLL无外部text和NLL-EXT有外部text条件下的计算。

在这里插入图片描述

合作学习

的目标是使用基于检索的输入视图来帮助提高模型在没有可用外部上下文时的准确性。 CL 在两个输入视图之间的内部表示或输出分布之间添加约束**，以强制两个视图的预测应该接近**。 CL 的目标函数由下式计算： LCL(θ) = D(h([x; x~]), h([x])) (4) 其中 D 是函数 h 与不同的函数之间的距离函数输入。因为基于检索的输入视图的表示或分布通常是信息丰富的，所以我们不会通过 h([x; x~]) 反向传播梯度。我们为 CL 提出了两种方法。
如下，为公式，即加上外部text的语义应该尽可能和没有加外部text的语义相近。
在这里插入图片描述
计算方式：
L2距离

KL散度
在 CRF 层中，损失函数很难计算，因为 pθ(y|•) 的输出空间是指数级的。为了缓解这个问题，我们计算了句子每个位置的边缘分布 qθ(yi |x, x~) 和 qθ(yi |x) 之间的 KL 散度，以逼近等式。
在这里插入图片描述

重采样缓解数据不平衡—NER—Improving Named Entity Recognition and Classification in Class Imbalanced Swedish Electronic Patient Records through Resampling

不平衡体现在两个方面，一是在 NERC 中，有两种类型的类不平衡问题。首先是在大多数句子中，大部分token不属于一个命名实体，二是，各种命名实体类之间可能存在不平衡
这是通过在对少数类进行过采样后用代理替换重复句子中的 PHI 实体（PHI即健康信息实体）来完成的。在这项研究中，NERC 的两个机器学习模型在使用上述技术及其组合重新采样的数据集上进行训练，并在原始类不平衡数据上进行测试。

过采样：其中来自一个或多个少数类的样本随机复制

文中提到的采样方式有两种，一是随机过采样，即对来自一个或多个少数类的样本随机复制
二是假名随机过采样，将 PHI 样本替换为具有代理项的重复句子。代理生成是词法的，基于大连人 (2019) 中使用的瑞典命名实体列表的集合。我们将此方法称为假名随机过采样。该数据集中的类分布与随机过采样数据集中的类分布相同

这种过采样方式，不会显着改变比率，因为正负令牌都是随机复制的
在这里插入图片描述
这和BUS过采样方式不同，BUS是改变了positive 和negtive tokens的比例。