引言
关于的知识图谱的相关概念在从语义网络到知识图谱这篇博文中有简单的描述,下面介绍一下在知识图谱实际使用中的一些工具。
数据
来源于The Movie Database (TMDb)抓取的电影数据,统计如下:
- 演员数量:505人
- 电影数量:4518部
- 电影类型:19类
- 人物与电影的关系:14451
- 电影与类型的关系:7898
演员的基本信息包括:姓名、英文名、出生日期、死亡日期、出生地、个人简介。
电影的基本信息包括:电影名称、电影简介、电影评分、电影发行日期、电影类型。
从这里可以获取处理好的mysql文件。
Protege
Protégé,又常常简单地拼写为“Protege”,是一个斯坦福大学开发的本体编辑和知识获取软件。开发语言采用Java,属于开放源码软件。由于其优秀的设计和众多的插件,Protégé已成为目前使用最广泛的本体论编辑器之一。
本体的构建大体有两种方式:自顶向下和自底向上。一般在开放域使用自底向上的方法,这里在电影领域则采用自顶向下的方式建立本体。
IRI
打开Protege,在Ontology IRI中填写本体资源的IRI,格式可以参考以下图片:
Class
切换到如下界面,创建电影知识图谱的类/概念。
这里创建了三个类,“人物”、“电影”、“类别”,注意,所有的类都是“Thing”的子类。