- 知识图谱
- 构建
- 应用
- 数据源
- 参考文献与致谢
这是暑假期间完成的一份报告,我把这个放到网上来和大家一起交流与学习。
一、知识图谱
谈起知识图谱,要先从语义网络说起。语义网络是一个由相互连接的结点和边组成的结构,结点表示的是实体、属性、事件、状态等,边表示的是关系,例如isA, part-of等。在语义网络中,有两个比较重要的关系,即isA和AKO(a kind of)。知识图谱实际上是一种特殊的语义网络,它的节点代表实体、属性等,边代表关系,也是一个有图结构的知识库。
相对于传统语义网络,知识图谱更加关注数据层面,并且区别subclass of和instance of的关系;内容通常通过众包获取,并且应用于语义搜索;运用最新的自然语言处理技术和语义技术;其强调的是实体之间的关联以及实体的属性值,且重要来源是百科。其构建强调不同来源知识的融合以及知识的清洗技术。
与此同时,相对于关系型数据库,知识图谱属于“动态的”,因为关系型数据库在创建之前需要确定好有哪些列,一旦创建好改动起来就不太方便,而知识图谱可以根据获取的知识添加一些关系、属性,这是关系数据库所不具有的。
二、构建
知识图谱的构建主要包括知识获取、知识融合、知识计算等部分。
2.1 知识获取
一般知识图谱的知识来源有三种,即结构化知识、半结构化知识、非结构化知识。对于结构化数据,通常使用ETL工具对用户生成系统下的数据进行重新组织、清洗、检测;对于半结构化数据,通过包装器学习半结构数据的抽取规则;对于非结构化数据,则需要进行实体识别,包括实体链接(entity linking)和命名实体识别(NER),以及实体关系识别等。
从百度百科等类似网站的infobox等获取知识往往比较容易,可以直接获得属性-