万字长文！成功复现ExtendNER——增量命名实体识别 SOTA 模型！

ZhiHneg

于 2025-03-08 23:23:57 发布

阅读量760

点赞数 12

文章标签：人工智能深度学习 bert python

本文链接：https://blog.csdn.net/m0_74828705/article/details/146124918

版权

复现增量命名实体识别SOTA模型——ExtendNER！

一、项目概述

命名实体识别（也称为实体分块或实体提取）是自然语言处理(NLP) 的一个组件，用于识别文本正文中预定义类别的对象。这些类别可以包括但不限于个人、组织、地点的名称，时间和数量的表达，医疗代码，货币价值和百分比等。例如：小明在北京读书，“小明”就属于“人”这个类别，北京就属于“地点”这个类别。本项目以bert模型作为backbone，在命名实体识别的基础上加入了增量学习，通过”知识蒸馏”的技术，较好的降低了灾难性遗忘，在conll2003数据集上取得了较好的效果。

二、conll2003数据集

CoNLL-2003数据集包括1393篇英文新闻文章和909篇德文新闻文章。总共包含4 个实体：PER（人员），LOC（位置），ORG（组织）和 MISC（其他，包括所有其他类型的实体）。

数据集具体格式如下：

EU NNP B-NP B-ORG
rejects VBZ B-VP O
German JJ B-NP B-MISC
call NN I-NP O
to TO B-VP O
boycott VB I-VP O
British JJ B-NP B-MISC
lamb NN I-NP O
. . O O

三、bert 模型介绍

BERT是由谷歌在2018年提出的一种基于Transformer架构的预训练语言模型。它的核心创新在于采用双向编码机制，通过同时考虑词语的上下文信息，突破了传统单向语言模型的局限性。

BERT的模型架构主要由多层Transformer编码器组成，能够捕捉长距离依赖关系和复杂的语义特征。此外，BERT通过两个无监督任务进行预训练：Masked Language Model（MLM）和Next Sentence Prediction（NSP），使其在多种自然语言处理任务中表现出色，如文本分类、问答和命名实体识别等。这一技术的出现极大地推动了NLP领域的发展。

四、数据集预处理

（一）数据集预处理

首先，我们需要解析原始的 ConLL 2003 数据集。该数据集以每行一个单词的形式存储，每一行包含单词、词性标注、语法标记和命名实体标签。当遇到空行时，表示句子结束。以下是数据预处理的核心代码：

def parse_conll2003(file_path):
    sentences, labels = [], []
    sentence, label = [], []
    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f:
            if line.strip() == '':
                if sentence:
                    sentences.append(sentence)
                    labels.append(label)
                    sentence, label = [], []
            else:
                token, _, _, tag = line.strip().split()
                sentence.append(token)
                label.append(tag)
    return sentences, labels

这段代码将原始数据转换为句子列表 sentences 和对应的标签列表 labels，每个句子及其标签都被独立地存储。

（二）构建 NER 数据集

接下来，我们将使用 NERDataset 类来构建适合 BERT 模型的 NER 数据集。该类继承自 PyTorch 的 Dataset，并负责将原始文本和标签转换为 BERT 可接受的输入格式。

class NERDataset(Dataset):
    def __init__(self, sentences, labels, tokenizer, max_len=128, current_tag2id=None):
        self.sentences = sentences
        self.labels = labels
        self.tokenizer = tokenizer
        self.max_len = max_len
        self.current_tag2id = current_tag2id or {'O': 0}

    def __len__(self):
        return len(self.sentences)

    def __getitem__(self, idx):
        sentence = self.sentences[idx]
        label = self.labels[idx]
        tokens = []
        label_ids = []
        for word, tag in zip(sentence, label):
            word_tokens = self.tokenizer.tokenize(word)
            if word_tokens:
                tokens.extend(word_tokens)
                label_ids.extend([self.current_tag2id.get(tag, 0)] + [-100] * (len(word_tokens) - 1))
        tokens = ['[CLS]'] + tokens + ['[SEP]']
        label_ids = [-100] + label_ids + [-100]
        if len(tokens) > self.max_len:
            tokens = tokens[:self.max_len]
            label_ids = label_ids[:self.max_len]
        else:
            padding_len = self.max_len - len(tokens)
            tokens += ['[PAD]'] * padding_len
            label_ids += [-100] * padding_len
        input_ids = self.tokenizer.convert_tokens_to_ids(tokens)
        attention_mask = [1 if token != '[PAD]' else 0 for token in tokens]
        return {
            'input_ids': torch.tensor(input_ids),
            'attention_mask': torch.tensor(attention_mask),
            'labels': torch.tensor(label_ids)
        }

在这段代码中，我们首先对每个句子进行分词，并将其转换为 BERT 的输入格式，包括 [CLS] 和 [SEP] 标记以及 [PAD] 填充。然后，我们将标签序列也进行相应的调整，确保其长度与输入序列一致。最终，返回的字典包含了 input_ids、attention_mask 和 labels，这些都是 BERT 模型所需的输入。

五、NER模型构建

（一）模型构建：基于 BERT 的命名实体识别

在本项目中，我们使用了 BERT 作为基础模型，并在其之上构建了适用于命名实体识别（NER）的任务特定结构。模型的核心组件包括 BERT 编码器、输出层扩展机制以及增量学习支持。

核心模块：BertNER

我们定义了一个名为 BertNER 的类，它继承自 nn.Module，用于加载预训练的 BERT 模型并添加适合 NER 的输出层。以下是模型的关键实现：

class BertNER(nn.Module):
    def __init__(self, num_labels):
        super(BertNER, self).__init__()
        self.bert = BertModel.from_pretrained('/path/to/bert-base-uncased')
        self.dropout = nn.Dropout(0.1)
        self.classifier = nn.Linear(self.bert.config.hidden_size, num_labels)
        self.num_labels = num_labels

    def forward(self, input_ids, attention_mask):
        outputs = self.bert(input_ids, attention_mask=attention_mask)
        sequence_output = outputs[0]
        sequence_output = self.dropout(sequence_output)
        logits = self.classifier(sequence_output)
        return logits

    def extend_output_layer(self, new_labels):
        # 动态扩展输出层以适应新实体类型
        new_num_labels = self.num_labels + len(new_labels)
        old_classifier = self.classifier
        self.classifier = nn.Linear(self.bert.config.hidden_size, new_num_labels)
        with torch.no_grad():
            self.classifier.weight[:old_classifier.weight.size(0)] = old_classifier.weight
            self.classifier.bias[:old_classifier.bias.size(0)] = old_classifier.bias
        self.num_labels = new_num_labels

关键点解析

BERT 编码器：
使用预训练的 BERT 模型提取上下文特征，通过 BertModel 提供的接口获取序列输出。
动态扩展输出层：
在增量学习过程中，新增实体类型的标签需要动态扩展输出层。通过 extend_output_layer 方法，我们在原有输出层的基础上追加新的分类权重，同时保留旧有参数不变。
适配 NER 任务：
输出层的维度与标签数量匹配，确保模型能够直接预测每个 token 的命名实体类别。

六、训练器Trainer构建

好的！以下是关于 trainer 部分的文章草稿，重点介绍增量学习中的训练方法、蒸馏损失以及评估策略。

Trainer 部分：增量学习中的训练与评估

在命名实体识别（NER）任务中，训练过程是模型优化的关键环节。本文介绍了如何在增量学习场景下构建高效的训练框架，涵盖数据蒸馏、损失计算以及模型评估等内容。

数据蒸馏与知识迁移

增量学习的一个重要挑战是如何避免灾难性遗忘，同时充分利用已有知识。为此，我们引入了数据蒸馏技术，通过教师模型指导学生模型的学习。具体而言，在每个增量学习阶段，教师模型会生成软目标（Soft Targets），帮助学生模型更好地拟合数据分布。

训练过程中，我们结合了交叉熵损失（Cross Entropy Loss）和知识蒸馏损失（Knowledge Distillation Loss），以平衡新类别学习与旧知识保持之间的关系。公式如下：

其中：

表示知识蒸馏损失，衡量学生模型与教师模型输出分布的差异；
表示交叉熵损失，用于监督学生模型直接预测真实标签；
和是超参数，控制两种损失的比例。

核心代码展示

以下为 train_with_distillation 函数的核心实现：

def train_with_distillation(model, teacher_model, dataloader, optimizer, device, alpha=1.0, beta=1.0, T_m=2.0):
    model.train()
    if teacher_model:
        teacher_model.eval()
    total_loss = 0
    criterion = nn.CrossEntropyLoss(ignore_index=-100)
    for batch in dataloader:
        input_ids = batch['input_ids'].to(device)
        attention_mask = batch['attention_mask'].to(device)
        labels = batch['labels'].to(device)
        logits = model(input_ids, attention_mask)
        ce_loss = criterion(logits.view(-1, model.num_labels), labels.view(-1))
        if teacher_model:
            with torch.no_grad():
                teacher_logits = teacher_model(input_ids, attention_mask)
            kl_loss = kl_div(log_softmax(logits / T_m, dim=-1), 
                            softmax(teacher_logits / T_m, dim=-1), 
                            reduction='batchmean') * (T_m ** 2)
            loss = alpha * kl_loss + beta * ce_loss
        else:
            loss = ce_loss
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        total_loss += loss.item()
    return total_loss / len(dataloader)

模型评估

在每个增量学习阶段结束后，我们通过验证集评估模型性能，使用 Viterbi 解码算法对预测结果进行后处理，并计算整体 F1 分数。评估代码如下：

def evaluate(model, dataloader, device, Tr, current_id2tag):
    model.eval()
    all_preds, all_labels = [], []
    with torch.no_grad():
        for batch in dataloader:
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'].to(device)
            logits = model(input_ids, attention_mask)
            preds = viterbi_decode(logits, Tr.to(device), attention_mask)
            for b in range(len(preds)):
                valid_len = attention_mask[b].sum().item()
                pred_seq = preds[b]
                label_seq = labels[b][:valid_len].cpu().tolist()
                all_preds.append(pred_seq)
                all_labels.append(label_seq)
    return all_preds, all_labels

通过上述方法，我们不仅实现了高效的训练流程，还确保了模型在增量学习过程中的稳定性和泛化能力。

七、总结

项目总结

本项目旨在通过增量学习的方式，逐步扩展命名实体识别（NER）模型的能力，使其能够处理多种实体类型。我们采用了基于 BERT 的神经网络架构，并结合知识蒸馏技术，确保模型在学习新实体类型的同时，不会遗忘已学的知识。此外，我们还实现了动态扩展模型输出层的功能，使模型能够适应不断增加的实体类别。

核心技术亮点

增量学习框架：
我们设计了一个渐进式学习框架，允许模型逐步学习新的实体类型。每次学习一个新的实体类型时，模型会动态扩展输出层，并通过知识蒸馏技术保留已有知识。
知识蒸馏：
在每个增量学习阶段，我们使用教师模型生成软目标（Soft Targets），帮助学生模型更好地拟合数据分布。这有助于减少灾难性遗忘现象的发生。
Viterbi 解码：
为了提高预测准确性，我们在评估阶段使用了 Viterbi 解码算法，对预测结果进行后处理，确保输出的标签序列符合语义约束。

实验效果总结

通过对 ConLL 2003 数据集的实验，我们得到了以下结果：

实体类型	最终 F1-Score
ORG	0.9230
PER	0.9507
LOC	0.9350
MISC	0.9113

从上述结果可以看出，模型在学习新实体类型的过程中表现出了良好的泛化能力和稳定性。特别是在学习多个实体类型后，模型的整体性能依然保持较高水平，证明了我们的增量学习方法的有效性。

具体实验细节

ORG 学习：
- 初始 F1-Score：0.9230
- 训练过程平稳，损失逐渐下降。
PER 学习：
- 初始 F1-Score：0.9507
- 在学习 PER 类别时，模型表现优异，F1-Score 达到 0.9507。
LOC 学习：
- 初始 F1-Score：0.9350
- 学习 LOC 类别时，模型继续表现出色，F1-Score 为 0.9350。
MISC 学习：
- 初始 F1-Score：0.9113
- 尽管 MISC 类别的数据量较少，模型仍能有效学习，F1-Score 为 0.9113。