EMNLP21 - Few-Shot Named Entity Recognition: An Empirical Baseline Study

最新推荐文章于 2023-05-08 21:49:43 发布

ywm_up

最新推荐文章于 2023-05-08 21:49:43 发布

阅读量643

点赞数 1

分类专栏：论文笔记文章标签： nlp

原文链接：https://aclanthology.org/2021.emnlp-main.813.pdf

版权

16 篇文章 2 订阅

订阅专栏

基于Transformer的自监督预训练语言模型(PLMs)，本文用了三种完全不同的方案提升小样本NER模型的泛化能力
- 元学习：为不同的实体类构造原型网络
- 特定任务的监督预训练
- 利用领域内无标签数据进行自训练
本文在10个公共NER数据集上，大量实验表明：
- 在小样本中，本文提出的NER方案显著改进或优于常规方案（基于PLMs预训练 + 微调的模型）
- 在小样本或无训练的情况下，本文创造了SOTA的结果

用三种完全不同的方法，提高 PLMs 模型的泛化能力：
- 为每个不同的实体创建原型表示，并以最近邻原则进行标注
- 重复在 web 数据中预训练
- 通过自训练的方式标注无标签数据，然后在有限的带标签数据中进行半监督学习(Xie et al., 2020),
本文主要贡献：
- 对小样本NER做了系统的研究，研究了三种不同的方法的组合
- 在10个数据集上，对这三种方法做了彻底的对比
- 对比目前的小样本和无训练NER，本文提出的方法达到了SOTA表现
本文研究建议：
- 带噪音的监督预训练可以显著提高NER的准确率
- 当无标签数据所占比例大时，自监督训练一直能够提升小样本学习的效果
- 原型网络学习在不同数据集上表现不一样，在标签数据少或者无训练条件下给出新实体类型的时候会有效

基于下面这篇论文构建原型网络
Snell J, Swersky K, Zemel R S. Prototypical networks for few-shot learning[J]. ACL 2017.

原型核心思想：通过计算 support set 中的嵌入中心，然后衡量新样本与这些中心的距离来完成分类。

support set：包含少量标注的样本
query set：包含未标注样本，和support set的样本空间一致
计算嵌入中心公式，简单的取平均
- $S_k$ ：类别为 k 的 support set
- $f_θ$ ：嵌入函数
- $x_i$ ：输入
  $c_k = \frac{1}{|S_k|} \sum_i f_θ(x_i)$
计算新样本到每个类别k的嵌入中心的距离： $d(f_θ(x), c_k)$ ，然后再用softmax对距离做映射，得到每个类别的概率 $\hat y_i = softmax(l_1,...,l_k)$ 。
训练目标优化交叉熵损失函数：
- $y$ ：真实值
- $\hat y$ ：预测值
  $\hat y) = - \sum^{N'}_{i = 1}y_i log\hat y_i$

NSP的两个预训练目标（其实都是softmax）：

使用线性分类器的目标： ${x})=\operatorname{Softmax}\left(\mathbf{W} \cdot f_{\theta_{0}}(\boldsymbol{x})+\boldsymbol{b}\right)$
原型网络的目标： $q\left({y}=\mathbb{I}_{m} \mid {x}\right)=\frac{\exp \left(-d\left(f_{\theta_{0}}(\boldsymbol{x}), \boldsymbol{c}_{m}\right)\right)}{\sum_{m^{\prime}} \exp \left(-d\left(f_{\theta_{0}}(\boldsymbol{x}), \boldsymbol{c}_{m^{\prime}}\right)\right)}$
对比两个目标，实验结果发现线性分类器对预训练的提升更显著

采用最新的半监督 self-training 模式，算法步骤如下：

用标注好的数据 $D^L$ ，通过交叉熵学习 teacher 模型 $θ^{tea}$
使用 teacher 模型，对未标注数据生成软标签 soft labels
$\tilde{y}_{i}=f_{\theta^{\text {tea }}}\left(\tilde{x}_{i}\right), \forall \tilde{x}_{i} \in \mathcal{D}^{\mathrm{U}}$
用带标签数据和第二步生成的 soft labels 数据，用交叉熵学习 student 模型 $θ^{stu}$
$\begin{aligned} \mathcal{L}_{\mathrm{ST}}=& \frac{1}{\left|\mathcal{D}^{\mathrm{L}}\right|} \sum_{x_{i} \in \mathcal{D}^{\mathrm{L}}} \mathcal{L}\left(f_{\theta^{\mathrm{stu}}}\left(x_{i}\right), y_{i}\right) \\ &+\frac{\lambda_{\mathrm{U}}}{\left|\mathcal{D}^{\mathrm{U}}\right|} \sum_{\tilde{x}_{i} \in \mathcal{D}^{\mathrm{U}}} \mathcal{L}\left(f_{\theta^{\mathrm{stu}}}\left(\tilde{x}_{i}\right), \tilde{y}_{i}\right) \end{aligned}$

当前few-shot NER SOTA模型包括：

实验结果如下：
请添加图片描述

两个 training-free NER 模型是：

实验结果如下：
请添加图片描述

关注