每天读一篇文献

题目:Joint Chinese entity relationship extraction based on
the improved attention mechanism

摘要:

本文提出了一种基于知识增强的预训练模型ERNIE作为语义表示层,在特征提取层采用BiLSTM和改进的注意力机制融合模型。实验表明,该模型在小数据集实体关系提取方面优于其他模型。在多标签分类任务中的数据不平衡问题中,利用圆损耗变量损耗函数实现模型更快收敛的目标。

1、针对实体关系抽取流水线化的问题,采用基于序列标注的联合方法进行实体关系抽取。

2、采用知识增强的ERNIE预训练模型进行文本语义表示。

联合学习方法

  • 参数共享方法
    • 实体和关系三元组进行建模
  • 序列标注方法

问题:

1、实体关系抽取任务中存在标注数据不足的问题,即在小数据集下,传统的注意机制模型并不有效,因此提出了一种改进的轻量级注意机制

2、为了提高模型对困难样本的分类能力,采用circle loss的变损耗函数来提高模型的收敛速度。

模型:

采用知识增强的预训练模型ERNIE作为文本语义特征表示层,BiLSTM和改进的注意机制作为特征提取层,最后采用全连接层作为标签分类层。

本文所采用的ERNIE模型能够动态地表示词向量,解决了词的多义问题。与BERT模型相比,ERNIE改进了掩码策略,增加了短语级掩码和实体级掩码,从而引入了先验语义知识。改进后的策略使ERNIE模型在文本语义表示方面具有更高的准确性。

为了防止增加注意机制引起的退化问题,采用一种剩余连接,将注意机制层的输出与未注意机制层的输入相加对应的位置。

注意力层

 

 

在多标签分类任务中,一般采用sigmoid函数对每个标签进行评分,并利用最终的交叉熵得到最终的损失值。这种损失函数设计没有考虑到数据不平衡的问题。使用改进的注意机制时,训练早期的收敛速度更快。

sigmoid函数对每个标号进行评分,利用最终的交叉熵得到最终的损失值。这种损失函数设计没有考虑到数据不平衡的问题。

圆损失函数的提出是为了提高模型对样本的识别能力。将多标签分类问题转化为二元问题,即只有目标类和非目标类。

 

讨论:

ERNIE在文本语义表示方面比BERT更准确,能够为网络上层提供更准确的文本语义表示,从而使模型具有更好的性能。BERT模型与其他神经网络模型的融合不能达到基线模型的精度,说明BERT模型在小数据集上比ERNIE模型更容易过拟合。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值