利用 GlobalPointer 进行中文命名实体识别

风清扬【coder】

于 2024-09-26 09:59:26 发布

阅读量341

点赞数 10

分类专栏：自然语言分析处理文章标签：深度学习人工智能 nlp 自然语言处理 keras

本文链接：https://blog.csdn.net/nalanqingcheng1314/article/details/142548169

版权

自然语言分析处理专栏收录该内容

9 篇文章 0 订阅

订阅专栏

利用 GlobalPointer 进行中文命名实体识别

在自然语言处理领域，命名实体识别（NER）是一个重要任务，它旨在识别文本中的特定信息单元，如人名、地名和组织名等。本文将详细分析使用 GlobalPointer 进行中文命名实体识别的实现代码。

1. 环境准备

在代码开头，我们导入了必要的库，包括 TensorFlow、BERT4Keras 等。这些库为模型构建、训练和评估提供了基础。

import os
import json
import glob
import numpy as np
import random
import tensorflow as tf
from bert4keras.backend import keras, K
from bert4keras.layers import GlobalPointer
from bert4keras.models import build_transformer_model
from bert4keras.optimizers import Adam

2. 定义损失函数与评估指标

我们首先定义了 global_pointer_crossentropy 和 global_pointer_f1_score 两个函数，以实现针对 GlobalPointer 的交叉熵损失和 F1 分数评估。

交叉熵损失：将真实标签和预测标签重塑为二维张量，并计算多标签分类的交叉熵。

def global_pointer_crossentropy(y_true, y_pred):
    bh = K.prod(K.shape(y_pred)[:2])
    y_true = K.reshape(y_true, (bh, -1))
    y_pred = K.reshape(y_pred, (bh, -1))
    return K.mean(multilabel_categorical_crossentropy(y_true, y_pred))

F1 分数：通过计算精确率和召回率，返回 F1 分数以评估模型性能。

def global_pointer_f1_score(y_true, y_pred):
    y_pred = K.cast(K.greater(y_pred, 0.), K.floatx())
    p = K.sum(y_true * y_pred) / K.sum(y_pred)
    r = K.sum(y_true * y_pred) / K.sum(y_true)
    return 2*p*r/(p+r)

3. 模型构建

我们提供了两个模型构建函数：build_model 和 build_multi_cls_model。

build_model：构建一个基础的 GlobalPointer 模型。它首先通过 build_transformer_model 构建基础模型，然后添加 GlobalPointer 层。

def build_model(config_path, checkpoint_path, categories_num, learning_rate):
    model = build_transformer_model(config_path, checkpoint_path)
    output = GlobalPointer(categories_num, 64, RoPE=True)(model.output)
    
    model = keras.models.Model(model.input, output)
    model.compile(
        loss=global_pointer_crossentropy,
        optimizer=Adam(learning_rate),
        metrics=[global_pointer_f1_score]
    )
    return model

build_multi_cls_model：构建一个多分类模型。它从 transformer 的多个输出层中提取信息，通过平均层结合不同层的特征，最终得到 GlobalPointer 的输出。

def build_multi_cls_model(config_path, checkpoint_path, categories_num, learning_rate):
    model = build_transformer_model(config_path, checkpoint_path, return_keras_model=True)
    cls1 = model.get_layer(output_layer % 10).output
    cls2 = model.get_layer(output_layer % 11).output
    mean_cls = keras.layers.Average()([cls1, cls2])
    output = GlobalPointer(categories_num, 64, RoPE=True)(mean_cls)

    model = keras.models.Model(model.input, output)
    optimizer = AdamW(learning_rate=learning_rate, weight_decay_rate=0.01)
    model.compile(
        loss=global_pointer_crossentropy,
        optimizer=optimizer,
        metrics=[global_pointer_f1_score]
    )
    return model