【知识图谱应用】实体链接的思路

首发:https://zhuanlan.zhihu.com/p/144183030

本文是段楠《智能问答》一书第三章“实体链接”的笔记。(其中有略的部分。同时夹私货。)

有不对的地方请评论告诉我哈,谢谢。


实体链接(entity linking)是指将文本中出现的实体提及(entity mention)关联到对应在知识图谱中的相关实体的任务。

具体步骤为,先生成候选实体,然后给候选实体排序,然后取权重查过阈值的排名第一的候选实体作为实体链接的结果。另外还有知识图谱中对应不上的情况,称为无链接指代预测。

1、候选实体生成(Candidate Entity Generation)

1.1、词典匹配方法

1.1.1、词典的几种来源:

1.1.1.1、来源于百科网站:标题、重定向页、消歧页、加粗短语(小别名)、超链接。

1.1.1.2、来源于知识图谱:直接从已有的知识图谱抽取别名,即谓词common.topic.alias。

1.1.1.3、来源于搜索引擎的查询日志:搜索query和点击的答案中存在的实体,建立二者关系。

(私货:

1.1.1.4、来源于规则构建词典:对于行业相关的很多类型的词,可以通过一两个规则处理常见且重要的实体名。如保险产品名就很适合这一条。

1.1.1.5、来源于人工构建词典:对于行业知识图谱。

对于行业知识图谱1.1.1.1很可能压根就没有;对于大多数非搜索的厂,1.1.1.3的数据量也远远不够而且还很可能费很大力气做清洗;大量的别名可以来源于某些其实很简单的规则,比如保险行业的保险产品名,常把分词后的第一个词作为简称;人工构建常用词典,花不了太多的资源,却很有效。

上述1.1.1.4、1.1.1.5两条的结果直接加到知识图谱上,那么只需要执行1.1.1.2就可以了,至此,思路收束。)

1.1.2、输入文本与词典之间的匹配规则:

1.1.2.1、完全匹配(exact match)

1.1.2.2、模糊匹配(fuzzy match)

模糊匹配有分成几种情况:输入文本和词典词二者之间是a包含b或者b包含a的关系,则匹配成功;二者之间存在一定程度的重叠,则匹配成功;二者符合字符串相似度算法,character dice score, skip bigram dice score, hamming distance等。

(私货:突然发现是这几个是一对一对的,dice score与jaccard index ;hamming distance与edit distance。)

(私货:1.1.2.3、词向量之间的匹配:将输入文本与词典词都转化为词向量。词和词之间的匹配怎么能少了词向量呢??但是感觉有点大材小用,因为既然有了词向量,还用什么词典呢??说的也是哈,,另外这应该是后面候选实体排序的方法才对,,哎,你懂了就得了,,)

1.2、统计学习方法

对于没见过的实体提及,上述词典的方式失效,转化为命名实体识别(NER)问题。

书中介绍了两种方法:CRF、LSTM + CRF 。

2、候选实体排序(Candidate Entity Ranking)

2.1、监督学习方法

2.1.1、上下文无关特征(context-independent feature)

仅用词本身的内容作打分和排序。(私货:下一行内容中省略了三项,其中两项是英文特有的,一项是要求过于严格。)

分为:完全匹配;实体提及包含候选实体;二者共有的词(字)数量;类型匹配特征,即NER出来的类型与知识图谱中的类型是否一致。

2.1.2、上下文相关特征(context-dependent feature)

2.1.2.1、词袋特征

实体提及用文本的上下文对应的词袋向量;知识图谱的候选实体,用知识图谱中与该实体相连的实体和谓词,作为对应的词袋向量。

(注:2.1.2.2和2.1.2.3针对百科网站的知识,故略。)

2.2、无监督学习方法

2.2.1、基于相连空间模型的方法:就是词向量做匹配。

2.2.2、基于信息检索的方法:将百科网站当做实体的表示。略。

3、无链接指代预测(Unlinkable Mention Prediction)

由于知识图谱的不完备性,会出现有点实体提及在知识图谱中没有相对应的实体的情况。对于这种情况,对应的实体应该是“空实体(NIL)”。三种方法:

3.1、根本就没有候选实体:词典对不上,NER也标不出。

3.2、有候选实体,但是排名第一的候选实体的打分低于有效阈值。

3.3、对实体提及和排名第一的候选实体做二分类,分类结果是不一致。

(私货:感觉3.3的思路对,但是实施效果比较难弄好。)

3.4、将空实体(NIL)也当做一个实体,加到打分和排序的行列中。

(私货:感觉3.4还不如3.3呢,上面说的各种有监督、无监督的排序方式都难以处理空实体NIL。)

到这里就完成了,先选一堆实体候选,再选出正确对应的实体的任务。


如果有错,请指正;如果觉得还行,请点赞!谢谢!

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值