知识图谱-实体链接

 百度 2019中文短文本的实体链指 第一名解决方案

中文短文本的实体识别实体链接,第一名解决方案

总结:

一、短文本实体链接的问题:

1、罗纳德·里根号航空母舰:文本中间有特殊符

  • 对特殊符号进行归一化处理,并将处理后的名字,加入到对应实体的别名中

2、新浪微薄:输入文本中实体名错误

3、国家质检总局: 别名不在知识库中

二、实体识别:

       仅仅使用 BERT-CRF模型只利用到了短文本信息,并没有利用知识库的信息。仍然会遇到①实体边界识别错误,②句子中实体识别不全等问题。为了解决上述不足,并且能够完全利用知识库的信息,提出了 BERT-ENE 模型。

2.1、BERT+CRF 模型

一些训练细节:

  1. 将训练集分为9份,采用9折交叉验证,分别按照loss和f1保存模型,共18个模型

  2. 因为BERT具有一定的随机性,在训练的过程中针对每个模型会多训练几次选择较好的一个(从第一轮结束验证后就能判断,不用全部跑完)

  3. 前3轮学习率为1e-5,后面会调整为1e-6

  4. 最大epoch为7,训练过程会根据loss提前停止

2.2、BERT-ENE 模型(EntityNameEmbedding)

模型具体过程为:
        ①、短文本经过 BERT层 ,得到BERT的输出
        ②、将BERT的输出输入到正向GRU网络和反向GRU网络中。然后抽取匹配到的实体名称对应在正向GRU的结束位置的向量$V_{end}$以及对应在反向GRU的开始位置的向量$V_{begin}$,将这两个向量连在一起得到$V_{con}$,则可以代表这个实体名称在文本语义表示。
        ③、为了学到整个文本的信息,分别对正向GRU 和反向GRU的输出,做最大池化操作,得到向量$V_{max}$,$V_{max}$可以表示整个文本的语义。
        ④、最后将$V_{max}$与$V_{con}$以及对应的实体名称嵌入连在一起经过卷积层、全连接层,$sigmoid$激活最后得到预测概率。

注:每次输入的是候选实体列表中的一个。

2.3 实体识别结果融合

如上所述,实体识别分为两个模型,一个 BERT-CRF 模型,一个 BERTENE。

BERT-CRF 模型识别的实体会因为边界识别错误导致不能够匹配得到候选实体。

而BERT-ENE 模型是通过词典匹配方式实现,所以 BERT-ENE的结果都能够在知识库找到候选实体,不会出现边界错误。BERT-ENE 模型在词典匹配时,去掉了单字实体,而 BERT-CRF 模型可以预测单字实体。所以将两种方案融合,能够取得最好的效果。

融合规则为:如果两个结果在位置存在重复,则选取BERT-ENE的结果,单字实体选取BERT-CRF 模型的结果。具体为:BERT+CRF共18个模型,对预测结果进行投票,分别去BERT+CRF模型投票大于8的作为BERT-CRF模型的结果。选取BERT-ENE模型概率大于0.45作为结果,合在一起即可。

三、实体消歧

  实体消歧是基于二分类的思想实现,训练时选取连接到的实体作为正例,在候选实体里选取两个负例。将短文本以及待消歧实体的描述文本连在一起,输入到BERT模型,取CLS 位置向量输出,以及候选实体对应开始和结束位置对应的特征向量三个向量连接,经过全连接层,最后sigmoid激活得到候选实体的概率得分。对所有候选实体的概率得分进行排序,选择概率最高的为正确实体。模型图如下:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值