题目:Joint Chinese entity relationship extraction based on
the improved attention mechanism
摘要:
本文提出了一种基于知识增强的预训练模型ERNIE作为语义表示层,在特征提取层采用BiLSTM和改进的注意力机制融合模型。实验表明,该模型在小数据集实体关系提取方面优于其他模型。在多标签分类任务中的数据不平衡问题中,利用圆损耗变量损耗函数实现模型更快收敛的目标。
1、针对实体关系抽取流水线化的问题,采用基于序列标注的联合方法进行实体关系抽取。
2、采用知识增强的ERNIE预训练模型进行文本语义表示。
联合学习方法
- 参数共享方法
- 实体和关系三元组进行建模
- 序列标注方法
问题:
1、实体关系抽取任务中存在标注数据不足的问题,即在小数据集下,传统的注意机制模型并不有效,因此提出了一种改进的轻量级注意机制。
2、为了提高模型对困难样本的分类能力,采用circle loss的变损耗函数来提高模型的收敛速度。
模型:
采用知识增强的预训练模型ERNIE作为文本语义特征表示层,BiLSTM和改进的注意机制作为特征提取层,最后采用全连接层作为标签分类层。
本文所采用的ERNIE模型能够动态地表示词向量,解决了词的多义问题。与BERT模型相比,ERNIE改进了掩码策略,增加了短语级掩码和实体级掩码,从而引入了先验语义知识。改进后的策略使ERNIE模型在文本语义表示方面具有更高的准确性。
为了防止增加注意机制引起的退化问题,采用一种剩余连接,将注意机制层的输出与未注意机制层的输入相加对应的位置。
注意力层
在多标签分类任务中,一般采用sigmoid函数对每个标签进行评分,并利用最终的交叉熵得到最终的损失值。这种损失函数设计没有考虑到数据不平衡的问题。使用改进的注意机制时,训练早期的收敛速度更快。
sigmoid函数对每个标号进行评分,利用最终的交叉熵得到最终的损失值。这种损失函数设计没有考虑到数据不平衡的问题。
圆损失函数的提出是为了提高模型对样本的识别能力。将多标签分类问题转化为二元问题,即只有目标类和非目标类。
讨论:
ERNIE在文本语义表示方面比BERT更准确,能够为网络上层提供更准确的文本语义表示,从而使模型具有更好的性能。BERT模型与其他神经网络模型的融合不能达到基线模型的精度,说明BERT模型在小数据集上比ERNIE模型更容易过拟合。