结合注意力机制的BERT-BiLSTM-CRF中文简历命名实体识别
摘要
本文提出了一个中文简历命名实体识别的新模型,该模型结合了BERT、BiLSTM、CRF和注意力机制。模型首先使用BERT对文本进行字符级别的编码,获取动态词向量。然后,BiLSTM网络用于提取文本的全局语义特征。为了更准确地识别关键特征,模型引入了注意力机制来分配权重。最后,CRF用于确定命名实体的最优标记序列。实验结果显示,这种结合了多种技术的模型在中文简历的命名实体识别任务上表现优异。
关键词:
中文简历实体识别、注意力机制、BERT、BiLSTM、CRF
1 引言
本文介绍了一个用于中文简历命名实体识别的新模型,该模型结合了BERT、BiLSTM、CRF和注意力机制。随着电子简历的普及,从大量简历中提取信息变得尤为重要,而命名实体识别是实现这一目标的关键技术。尽管基于深度学习的方法在NER领域取得了进展,但它们在处理中文多义词和挖掘上下文潜在语义特征方面仍有不足。因此,本文提出的模型通过引入注意力机制来提高识别的准确性。
命名实体识别技术经历了基于规则的方法、统计学习方法到深度学习方法的发展。尽管基于规则的方法需要手工定义规则且系统可移植性差,但统计学习方法和深度学习方法通过自动学习特征表示,提高了NER任务的性能。特别是,深度学习方法如LSTM、BiLSTM和BERT已经在NER任务中显示出了强大的能力。本文提出的模型通过在BERT-BiLSTM-CRF的基础上整合注意力机制,进一步提高了中文简历实体识别的准确性,通过为BiLSTM层输出的特征向量分配权重来实现。
2 系统模型和问题描述
在本文中,使用的是面向中文简历的数据集。与一般的命名实体识别不同,简历中的命名实体识别包含总共八种实体类别,例如姓名(NAME)、国籍(NAT)、籍贯(LOC)、民族(RACE)、组织(ORG)、职位(TITLE)、学历(EDU)和职业(PRO)等,简历中的实体类别出现较为密集,并且某些实体的构造更加规律。为了实现良好的识别效果,首先采用了BERT-BiLSTM-CRF模型。
2.1 实体标注方法
采用了BIOES标注系统来对中文简历数据集进行实体标注。BIOES是一种常用的命名实体识别标注方法,它通过不同的标签来指示实体的不同部分:
- B-Entity:实体的第一个词。
- I-Entity:实体内部的词(除了第一个词)。
- E-Entity:实体的最后一个词。
- S-Entity:单个词构成的实体。
- O:非实体部分。
如表1所示,这是使用BIOES标注系统进行数据标注的一个示例。
2.2 系统模型
2.2.1 嵌入层(BERT层)
在本文提出的系统中,BERT层作为嵌入层,负责将文本信息转换为词向量,并进一步嵌入到语言模型中。BERT模型通过以下几个步骤来增强模型对文本的理解:
-
双向Transformer网络:BERT使用双向Transformer网络作为编码器,这使得模型能够同时考虑前后文信息,有效处理一词多义的问题。
-
无监督预训练:BERT通过两种主要的预训练任务来学习语言的上下文表示:
- 遮蔽语言模型(MLM):随机遮蔽输入文本中的词,然后预测这些被遮蔽的词,使模型学习到丰富的上下文信息。
- 下一句预测(NSP):判断两个句子是否是连续的,帮助模型理解句子间的关系。
-
词向量组成:BERT生成的词向量包括三种嵌入,如图1所示:
- Token Embeddings:单词的基本表示。
- Segment Embeddings:表示文本中不同话语的语义信息。
- Position Embeddings:表示单词在文本中的位置信息。
2.2.2 编码层(BiLSTM层)
BiLSTM层作为编码层,负责处理BERT层输出的词向量。BiLSTM层由前向和后向两个LSTM网络组成,能够从两个方向捕获序列信息,提供更全面的上下文理解。LSTM通过三个门(遗忘门、输入门、输出门)的机制来更新其内部状态,从而解决长期依赖问题。其单元结构如图2所示。相关计算公式如公式1)至公式3)所示。
(1)
(2)
(3)
其中,f_tft、i_tit、o_tot分别表示遗忘门、输入门和输出门,\sigmaσ是Sigmoid函数,WW和bb是相应的权重矩阵和偏置向量,x_txt和h_tht分别是时刻tt的输入和输出。记忆单元的更新公式如公式4)所示,隐藏层状态更新过程如公式5)所示。
(4)
(5)
其中,*表示逐元素乘法,\tanhtanh是双曲正切激活函数。
BiLSTM层的输出向量结合了正向和反向LSTM的输出,为模型提供了丰富的上下文信息,这对于后续的实体识别任务至关重要。
2.2.3 解码层(CRF层)
CRF层作为解码层,负责从BiLSTM层的输出中生成最终的标签序列。CRF层通过以下步骤实现:
-
计算分数:使用转移分数矩阵
计算文本序列
的预测标签序列
的分数,如公式6所示。
(6)
其中,
表示第i个字符的第j个标签分数,
表示权重矩阵,
表示权重矩阵中第
行第
列的概率
-
归一化:通过softmax函数对分数进行归一化,得到序列
的概率,具体公式如公式7所示。
(7)
其中,
表示序列X的所有可能标签序列,
表示真实标签序列。
-
Viterbi算法:使用Viterbi算法找到全局最优的标签序列,在解码过程中使用Viterbi算法获得序列
的全局最优标签序列
,具体公式如公式8所示。
(8)
CRF层通过考虑标签之间的转移概率,能够找到整个序列的最优标注,从而提高模型在命名实体识别任务中的性能。
2.3 问题描述
旨在通过提出的模型提高中文简历命名实体识别的性能。为了评估模型的效果,使用以下三个主要指标:
- 精确度(Precision):衡量模型预测正确的实体与所有预测实体的比例。
- 召回率(Recall):衡量模型预测正确的实体与所有实际实体的比例。
- F1分数:精确度和召回率的调和平均值,用于综合反映模型的精确度和召回率。
每个指标的计算公式如公式9)至公式11)所示。
(9)
(10)
(11)
其中,表示NER正确识别的实体数量,
表示NER错误识别的实体数量,
表示语料库中存在但未被识别的实体数量。
通过优化这些指标,模型能够更准确地从中文简历中识别出各类实体,从而提高整体的识别性能。
3 BERT-BiLSTM-Att-CRF模型结合注意力机制
基于BERT-BiLSTM-CRF模型的命名实体识别效果已经取得了良好的结果,本文希望在此基础上进一步提高识别的准确性,因此引入了注意力机制,并提出了BERT-BiLSTM-Att-CRF模型。该模型通过注意力机制为文本分配权重,并突出有用信息,以实现对简历中实体的精确识别并准确预测它们。
3.1 注意力层
本文提出在BiLSTM层之后融合注意力机制,该机制旨在为上一层的输出分配权重,然后生成包含文本上下文特征和潜在语义特征的联合特征向量序列,以增强序列表示的表现力。该模型中注意力机制的步骤如下:
-
输入:将BiLSTM层的输出序列(h1, h2, ..., hn)作为输入,其中hi代表BiLSTM在第i个时间步的输出向量。
-
计算相似度:对于输入序列中的每个时间步hi,与查询向量q计算相似度,获得相似度分数vi。常用的相似度计算方法是计算查询向量和输出向量之间的点积或缩放点积。具体公式如公式12所示。
(12)
- 归一化:通过softmax函数对获得的相似度分数进行归一化,获得注意力权重li。注意力权重表明输入序列中每个时间步的重要性或权重分配。具体公式如公式13所示,其中n是序列的长度。
(13)
- 加权求和:将注意力权重与输入序列中每个时间步的向量进行加权求和,获得加权输出向量。注意力权重也可以作为权重矩阵与输入序列中每个时间步的向量进行矩阵乘法,以获得加权输出向量。具体公式如公式14所示。
(14)
3.2 模型架构
本文提出的BERT-BiLSTM-Att-CRF模型由四个模块组成:嵌入层、编码层、注意力层和解码层,模型的整体结构如图4所示。
3.3 BERT-BiLSTM-Att-CRF算法流程图
4 实验及结果分析
4.1 实验参数设置
实验参数的具体设置如表2所示
4.2 数据集
在本实验中使用的简历数据集被划分为训练集、测试集和验证集,比例为8:1:1。其中:
- 训练集 包含3821个句子,有效字符数为127919,实体数量为13438。
- 测试集 包含477个句子,有效字符数为15576,实体数量为1630。
- 验证集 包含463个句子,有效字符数为14352,实体数量为1497。
4.3 实验结果与分析
为了验证本文提出的模型在中文简历实体识别中的良好识别效果,通过与其他模型进行比较实验。各模型的识别效果比较如表3所示。
根据上表对比模型1和模型2,可以看出在添加CRF模块到BiLSTM后,各项指标值都有了显著提升,这是因为CRF模块可以对标签序列的依赖性进行建模,从而输出最优的标签序列。
对比模型2、4与模型3、5,可以看出引入BERT预训练语言模型后,所有指标都有了显著提升,这证明了BERT模型在命名实体识别中的有效性。这是因为BERT模型通过预训练模型充分考虑不同上下文中的语义信息,生成输入文本序列的动态词向量,解决了一词多义的问题。
对比模型2、3和4、5,可以看出本文使用的基准模型的识别效果优于当前主流的识别模型。
对比模型3和模型6,可以看出本文提出的BERT-BiLSTM-Att-CRF模型,在融合了注意力机制后,能够为上层输出结果分配权重,对与识别实体相关性高的词语赋予更高的权重,突出这些特征信息,忽略不相关信息,获得了很好的指标值,从而提高了识别效果。
5 结论
本文提出的模型通过以下几个关键步骤提高了中文简历实体识别的准确性:
-
BERT预训练模型:通过捕捉词汇与上下文之间的关系,增强了模型对语义的理解。
-
BiLSTM网络:通过前向和后向传播编码上下文信息,更好地建模序列中的依赖关系。
-
注意力机制:引入自动权重分配,帮助模型聚焦于序列中的关键特征。
-
CRF解码层:利用序列的整体上下文信息进行解码,得出全局最优的标签序列。
实验结果表明,该模型在中文简历数据集上达到了92.98%的高识别率,显示了模型的有效性。未来的工作将集中在解决数据集规模较小的问题,通过扩大数据集规模来进一步提升模型性能和泛化能力。