摘要
【目的】命名实体识别是自然语言处理领域的一项基本任务,实体包括人名、地名和组织名等,与其他实体相比,人名与职务、职务变更及人称代词有关。人名的实体识别中,人名语料的残缺及人称指代不明等问题,成为处理中的难点、痛点。基于此观察,本文提出一种融合指代消解的序列标注方法来改进人名识别,这可以有效缓解人名识别中人名语料不完善的问题,并且可以解决人称代词指代不明、人力耗费量大等问题。【方法】具体地,首先利用职务变更进行数据增强,可以有效解决实际应用中标注数据不足的问题。接着为了更好地学习上下文特征,本文使用语言预训练模型BERT和双向长短时记忆网络结合的方式,并利用条件随机场建模来标签序列的关系。最后,针对文本中的人称代词,加入指代消解算法,进一步改进人名识别。【结果】在公共数据集和本文提出的数据集上的实验结果均表明本文提出方法的有效性。
关键词: 命名实体识别; 指代消解; BERT; 长短时记忆网络
引言
自然语言处理(Natural Language Processing, NLP)领域中,