论文阅读 - 《BERT-BiLSTM-CRF Chinese Resume Named Entity Recognition Combining Attention Mechanisms》

最新推荐文章于 2025-03-17 13:35:56 发布

杨过过儿

最新推荐文章于 2025-03-17 13:35:56 发布

阅读量2k

点赞数 16

文章标签：论文阅读 bert 人工智能

本文链接：https://blog.csdn.net/qq_38146189/article/details/142618561

版权

结合注意力机制的BERT-BiLSTM-CRF中文简历命名实体识别

摘要

本文提出了一个中文简历命名实体识别的新模型，该模型结合了BERT、BiLSTM、CRF和注意力机制。模型首先使用BERT对文本进行字符级别的编码，获取动态词向量。然后，BiLSTM网络用于提取文本的全局语义特征。为了更准确地识别关键特征，模型引入了注意力机制来分配权重。最后，CRF用于确定命名实体的最优标记序列。实验结果显示，这种结合了多种技术的模型在中文简历的命名实体识别任务上表现优异。

关键词：

中文简历实体识别、注意力机制、BERT、BiLSTM、CRF

1 引言

本文介绍了一个用于中文简历命名实体识别的新模型，该模型结合了BERT、BiLSTM、CRF和注意力机制。随着电子简历的普及，从大量简历中提取信息变得尤为重要，而命名实体识别是实现这一目标的关键技术。尽管基于深度学习的方法在NER领域取得了进展，但它们在处理中文多义词和挖掘上下文潜在语义特征方面仍有不足。因此，本文提出的模型通过引入注意力机制来提高识别的准确性。

命名实体识别技术经历了基于规则的方法、统计学习方法到深度学习方法的发展。尽管基于规则的方法需要手工定义规则且系统可移植性差，但统计学习方法和深度学习方法通过自动学习特征表示，提高了NER任务的性能。特别是，深度学习方法如LSTM、BiLSTM和BERT已经在NER任务中显示出了强大的能力。本文提出的模型通过在BERT-BiLSTM-CRF的基础上整合注意力机制，进一步提高了中文简历实体识别的准确性，通过为BiLSTM层输出的特征向量分配权重来实现。

2 系统模型和问题描述

在本文中，使用的是面向中文简历的数据集。与一般的命名实体识别不同，简历中的命名实体识别包含总共八种实体类别，例如姓名（NAME）、国籍（NAT）、籍贯（LOC）、民族（RACE）、组织（ORG）、职位（TITLE）、学历（EDU）和职业（PRO）等，简历中的实体类别出现较为密集，并且某些实体的构造更加规律。为了实现良好的识别效果，首先采用了BERT-BiLSTM-CRF模型。

2.1 实体标注方法

采用了BIOES标注系统来对中文简历数据集进行实体标注。BIOES是一种常用的命名实体识别标注方法，它通过不同的标签来指示实体的不同部分：

B-Entity：实体的第一个词。
I-Entity：实体内部的词（除了第一个词）。
E-Entity：实体的最后一个词。
S-Entity：单个词构成的实体。
O：非实体部分。

如表1所示，这是使用BIOES标注系统进行数据标注的一个示例。

2.2 系统模型

2.2.1 嵌入层（BERT层）

在本文提出的系统中，BERT层作为嵌入层，负责将文本信息转换为词向量，并进一步嵌入到语言模型中。BERT模型通过以下几个步骤来增强模型对文本的理解：

双向Transformer网络：BERT使用双向Transformer网络作为编码器，这使得模型能够同时考虑前后文信息，有效处理一词多义的问题。
无监督预训练：BERT通过两种主要的预训练任务来学习语言的上下文表示：
- 遮蔽语言模型（MLM）：随机遮蔽输入文本中的词，然后预测这些被遮蔽的词，使模型学习到丰富的上下文信息。
- 下一句预测（NSP）：判断两个句子是否是连续的，帮助模型理解句子间的关系。
词向量组成：BERT生成的词向量包括三种嵌入，如图1所示：
- Token Embeddings：单词的基本表示。
- Segment Embeddings：表示文本中不同话语的语义信息。
- Position Embeddings：表示单词在文本中的位置信息。

2.2.2 编码层（BiLSTM层）

BiLSTM层作为编码层，负责处理BERT层输出的词向量。BiLSTM层由前向和后向两个LSTM网络组成，能够从两个方向捕获序列信息，提供更全面的上下文理解。LSTM通过三个门（遗忘门、输入门、输出门）的机制来更新其内部状态，从而解决长期依赖问题。其单元结构如图2所示。相关计算公式如公式1)至公式3)所示。

$f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f) \quad$ (1)

$i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) \quad$ (2)

$o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o) \quad$ (3)

其中，f_tft、i_tit、o_tot分别表示遗忘门、输入门和输出门，\sigmaσ是Sigmoid函数，WW和bb是相应的权重矩阵和偏置向量，x_txt和h_tht分别是时刻tt的输入和输出。记忆单元的更新公式如公式4)所示，隐藏层状态更新过程如公式5)所示。

$\tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C) \quad$ (4)

$h_t = o_t \cdot \tanh(C_t) \quad$ (5)

其中，*表示逐元素乘法，\tanhtanh是双曲正切激活函数。

BiLSTM层的输出向量结合了正向和反向LSTM的输出，为模型提供了丰富的上下文信息，这对于后续的实体识别任务至关重要。

2.2.3 解码层（CRF层）

CRF层作为解码层，负责从BiLSTM层的输出中生成最终的标签序列。CRF层通过以下步骤实现：

计算分数：使用转移分数矩阵 $S$ 计算文本序列 $X = {x1, x2, ..., xn}$ 的预测标签序列 $Y = {y1, y2, ..., ym}$ 的分数，如公式6所示。

$\text{score}(X, Y) = \sum_{i=1}^{n} \sum_{j=1}^{m} S_{ij}(y_j|x_i) \quad$ (6)

其中， $S_{ij}$ 表示第i个字符的第j个标签分数， $W$ 表示权重矩阵， $W_{ij}$ 表示权重矩阵中第 $i$ 行第 $j$ 列的概率
归一化：通过softmax函数对分数进行归一化，得到序列 $Y$ 的概率，具体公式如公式7所示。

$P(Y|X) = \frac{\exp(\text{score}(X, Y))}{\sum_{\tilde{Y} \in \tilde{Y}_X} \exp(\text{score}(X, \tilde{Y}))} \quad$ (7)

其中， $\tilde{Y}_X$ 表示序列X的所有可能标签序列， $\tilde{Y}$ 表示真实标签序列。
Viterbi算法：使用Viterbi算法找到全局最优的标签序列，在解码过程中使用Viterbi算法获得序列 $X$ 的全局最优标签序列 $\hat{Y}$ ，具体公式如公式8所示。

$\hat{Y} = \text{arg max}_{\tilde{Y} \in \tilde{Y}_X} P(\tilde{Y}|X) \quad$ (8)

CRF层通过考虑标签之间的转移概率，能够找到整个序列的最优标注，从而提高模型在命名实体识别任务中的性能。

2.3 问题描述

旨在通过提出的模型提高中文简历命名实体识别的性能。为了评估模型的效果，使用以下三个主要指标：

精确度（Precision）：衡量模型预测正确的实体与所有预测实体的比例。
召回率（Recall）：衡量模型预测正确的实体与所有实际实体的比例。
F1分数：精确度和召回率的调和平均值，用于综合反映模型的精确度和召回率。

每个指标的计算公式如公式9)至公式11)所示。

$P = \frac{T_p}{T_p + F_p} \times 100\% \quad$ (9)

$R = \frac{T_p}{T_p + F_N} \times 100\% \quad$ (10)

$F1 = \frac{2 \times P \times R}{P + R} \times 100\% \quad$ (11)

其中， $T_p$ 表示NER正确识别的实体数量， $F_p$ 表示NER错误识别的实体数量， $F_N$ 表示语料库中存在但未被识别的实体数量。

通过优化这些指标，模型能够更准确地从中文简历中识别出各类实体，从而提高整体的识别性能。

3 BERT-BiLSTM-Att-CRF模型结合注意力机制

基于BERT-BiLSTM-CRF模型的命名实体识别效果已经取得了良好的结果，本文希望在此基础上进一步提高识别的准确性，因此引入了注意力机制，并提出了BERT-BiLSTM-Att-CRF模型。该模型通过注意力机制为文本分配权重，并突出有用信息，以实现对简历中实体的精确识别并准确预测它们。

3.1 注意力层

本文提出在BiLSTM层之后融合注意力机制，该机制旨在为上一层的输出分配权重，然后生成包含文本上下文特征和潜在语义特征的联合特征向量序列，以增强序列表示的表现力。该模型中注意力机制的步骤如下：

输入：将BiLSTM层的输出序列（h1, h2, ..., hn）作为输入，其中hi代表BiLSTM在第i个时间步的输出向量。
计算相似度：对于输入序列中的每个时间步hi，与查询向量q计算相似度，获得相似度分数vi。常用的相似度计算方法是计算查询向量和输出向量之间的点积或缩放点积。具体公式如公式12所示。 $a_i = \text{score}(h_i, q) \quad$ (12)
归一化：通过softmax函数对获得的相似度分数进行归一化，获得注意力权重li。注意力权重表明输入序列中每个时间步的重要性或权重分配。具体公式如公式13所示，其中n是序列的长度。 $l_i = \frac{\exp(e_i)}{\sum_{j=1}^{n} \exp(e_j)} \quad$ (13)
加权求和：将注意力权重与输入序列中每个时间步的向量进行加权求和，获得加权输出向量。注意力权重也可以作为权重矩阵与输入序列中每个时间步的向量进行矩阵乘法，以获得加权输出向量。具体公式如公式14所示。