
一、实体识别
-
实体
先说什么实体吧。在NLP中通常所说的实体指的是人名、地名、机构名,在新闻领域,我们希望了解突发事件的主体,比如人物、地点、机构等等。如果扩展的话,就是你所关心的词语,比如在商品标题中,我们会关心品牌词、物品词、物品属性词,通过这些词+情感极性词,可以更详细地了解顾客的购物意愿。 -
实体识别
再说怎么让机器识别这些实体吧。从识别步骤来看分为两步,第一步识别出实体词边界,也就是实体的开始位置和结束位置;第二步识别出实体的类型,也就是前边所说的人名、地名、机构名等等具体的实体类型。从识别方法来看有两类,第一类基于正则规则,也就是实体词的构词规律和高频上下文词。比如手机的属性词有:“数字+GB”描述存储能力,“数字+寸”描述屏幕大小,“数字+万+像素”描述拍摄效果等等。这一类词完全可以通过正则表达式来匹配。当然,缺陷也很明显,比如相同规则匹配的属性词所描述的具体内容不同,比如“数字+GB”既可以描述内存,也可以描述存储空间。一个正则表达式可以匹配多个串,而有些串并不是我们想要的实体。规则多了,就会有冲突。第二类基于机器学习方法。首先,要求实体的上下文以及构词具有统计规律,其次,要有充足的训练语料。
参考:https://zhuanlan.zhihu.com/p/150727219
二、实体对齐
为什么要进行实体对齐?
不同的知识图谱,收集知识的侧重点不同,对于同一个实体,有知识图谱的可能侧重于其本身某个方面的描述,有的知识图谱可能侧重于描述实体与其它实体的关系。
比如,对于历史人物曹操的描述,在百度百科、互动百科、维基百科等不同的知识图谱中,描述有一些差别,曹操所属时代,百度百科为东汉,互动百科为东汉末年,维基百科为东汉末期;曹操的主要成就,百度百科为“实行屯田制,安抚流民消灭群雄,统一北方,奠定曹魏政权的基础,开创建安文学,提倡薄葬”,互动百科为“统一北方”,维基百科为“统一了东汉帝国核心地区”。
由此可以看出,不同的知识图谱对于同一个实体的描述,还是有一些差异。通过知识融合可以将不同知识图谱中的知识进行互补融合,形成全面、准确、完整的实体描述。知识融合过程中,主要涉及到的工作就是实体对齐。
实体对齐的目标是什么?
实体对齐的主要目的是判断两个或者多个不同信息来源的实体是否为指向真实世界中同一个对象。另外,如果找到多个实体表征同一个对象,则需要在这些实体之间构建对齐关系,同时对实体包含的信息进行融合和聚集。
举个简单的例子,如图1中的“长城”一词,在不同的来源中指向现实意义中的同一对象,因此,在实体对齐的过程中需要将不同来源的实体信息进行对齐融合,以避免“长城”在知识图谱中重复出现或实体的信息不完整等情况。
参考:https://blog.csdn.net/weixin_41753316/article/details/110184989
综述: https://blog.csdn.net/weixin_40485502/article/details/116799150
论文:一种基于bert的实体对齐交互模型
论文源码:https://github.com/kosugi11037/bert-int
三、实体消歧
参考:blog.csdn.net/broccoli2/article/
四、属性对齐
属性对齐:旨在判断两个或多个属性是否可以表示同一个属性,把不同来源或名字相同但表征相同的属性进行信息融合,从而或者更丰富、更准确的信息。
五、论文+源码实现
论文:
Bidirectional LSTM-CRF Models for Sequence Tagging
Neural Architectures for Named Entity Recognition
Advanced: Making Dynamic Decisions and the Bi-LSTM CRF
实体识别:
https://blog.csdn.net/lyj22306
https://blog.csdn.net/qq_480345662
https://createmomo.github.io/2017/11/11/CRF-Layer-on-the-Top-of-BiLSTM-5/
https://zhuanlan.zhihu.com/p/27338210
https://github.com/mali19064/LSTM-CRF-pytorch-faster
https://pytorch.org/tutorials/beginner/nlp/advanced_tutorial.html
https://blog.csdn.net/cuihuijun1hao/article/details/79405740
实体对齐论文与源码汇总:https://blog.csdn.net/weixin_40485502/article/details/116782987
python&Neo4j关联相关的cypher查询操作之图数据库的实体对齐总结
Neo4j 第三篇:Cypher查询入门: https://www.cnblogs.com/ljhdo/p/5516793.html
Neo4j之Cypher学习总结: https://www.jianshu.com/p/2bb98c81d8ee
查找两个节点之间关系的最短路径: https://blog.csdn.net/Appleyk/article/details/80437746
关于neo4j查询多深度关系节点: https://blog.csdn.net/u013946356/article/details/81739079
参考:https://zhuanlan.zhihu.com/p/61227299
https://blog.csdn.net/ai_1046067944/article/details/85342567