知识图谱-实体链接

人鱼线

于 2024-04-05 17:33:44 发布

阅读量19

点赞数

文章标签：知识图谱

原文链接：https://mp.weixin.qq.com/s/4N4sz33Lr2kxDSq6lz1ayQ

版权

百度 2019中文短文本的实体链指第一名解决方案

中文短文本的实体识别实体链接，第一名解决方案

总结：

一、短文本实体链接的问题：

1、罗纳德·里根号航空母舰：文本中间有特殊符

对特殊符号进行归一化处理，并将处理后的名字，加入到对应实体的别名中。

2、新浪微薄：输入文本中实体名错误

3、国家质检总局: 别名不在知识库中

二、实体识别：

仅仅使用 BERT-CRF模型只利用到了短文本信息，并没有利用知识库的信息。仍然会遇到①实体边界识别错误，②句子中实体识别不全等问题。为了解决上述不足，并且能够完全利用知识库的信息，提出了 BERT-ENE 模型。

2.1、BERT+CRF 模型

一些训练细节：

将训练集分为9份，采用9折交叉验证，分别按照loss和f1保存模型，共18个模型
因为BERT具有一定的随机性，在训练的过程中针对每个模型会多训练几次选择较好的一个（从第一轮结束验证后就能判断，不用全部跑完）
前3轮学习率为1e-5，后面会调整为1e-6
最大epoch为7，训练过程会根据loss提前停止

2.2、BERT-ENE 模型(EntityNameEmbedding)

模型具体过程为：
        ①、短文本经过 BERT层，得到BERT的输出
        ②、将BERT的输出输入到正向GRU网络和反向GRU网络中。然后抽取匹配到的实体名称对应在正向GRU的结束位置的向量$V_{end}$以及对应在反向GRU的开始位置的向量$V_{begin}$，将这两个向量连在一起得到$V_{con}$，则可以代表这个实体名称在文本语义表示。
        ③、为了学到整个文本的信息，分别对正向GRU 和反向GRU的输出，做最大池化操作，得到向量$V_{max}$，$V_{max}$可以表示整个文本的语义。
        ④、最后将$V_{max}$与$V_{con}$以及对应的实体名称嵌入连在一起经过卷积层、全连接层，$sigmoid$激活最后得到预测概率。

注：每次输入的是候选实体列表中的一个。

2.3 实体识别结果融合

如上所述，实体识别分为两个模型，一个 BERT-CRF 模型，一个 BERTENE。

BERT-CRF 模型识别的实体会因为边界识别错误导致不能够匹配得到候选实体。

而BERT-ENE 模型是通过词典匹配方式实现，所以 BERT-ENE的结果都能够在知识库找到候选实体，不会出现边界错误。BERT-ENE 模型在词典匹配时，去掉了单字实体，而 BERT-CRF 模型可以预测单字实体。所以将两种方案融合，能够取得最好的效果。

融合规则为：如果两个结果在位置存在重复，则选取BERT-ENE的结果，单字实体选取BERT-CRF 模型的结果。具体为：BERT+CRF共18个模型，对预测结果进行投票，分别去BERT+CRF模型投票大于8的作为BERT-CRF模型的结果。选取BERT-ENE模型概率大于0.45作为结果，合在一起即可。

三、实体消歧

　　实体消歧是基于二分类的思想实现，训练时选取连接到的实体作为正例，在候选实体里选取两个负例。将短文本以及待消歧实体的描述文本连在一起，输入到BERT模型，取CLS 位置向量输出，以及候选实体对应开始和结束位置对应的特征向量，三个向量连接，经过全连接层，最后sigmoid激活得到候选实体的概率得分。对所有候选实体的概率得分进行排序，选择概率最高的为正确实体。模型图如下：