Author:Liedra
https://www.cnblogs.com/LieDra/
1.本文背景
学习知识图谱时记录的一些内容。当时在搞一些NLP、数据挖掘相关项目。
--------------------------------------------正文开始----------------------------------------------------
2.什么是知识图谱。
知识图谱是由本体(Ontology)作为Schema层,和RDF数据模型兼容的结构化数据集。是语义网络的知识库。
一定程度上可以简单地把知识图谱理解为多关系图。多关系图包含多种不同类型的节点和边。
通常用实体来表达图里的节点,用关系来表达不同实体之间的某种联系。
实体---人、公司、概念、地名等,关系则代表联系(联想数据库)。
3.知识图谱的表示
现实世界中,实体和关系也会拥有自己的属性。
除了属性图,知识图谱也可以用RDF来表示(一般不支持属性,主要用于学术场景)。
4.知识抽取
数据源:主要有两种渠道,一是业务本身的数据,结构化的,二是网络上公开、抓取的数据,非结构化的。前者只需要简单的预处理,后者需要借助自然语言处理等技术提取结构化信息。(结构化和非结构化)
涉及以下几个方面的自然语言处理技术:实体命名识别,关系抽取,实体统一,指代消解。
实体命名识别:从文本中提取出实体并打标签。实体名及实体类型(地点还是其他等等)。相对成熟的技术,有一些工具可用。
关系抽取:如A在B中, A接近C。这里的'在'