实践篇（一）：数据准备和本体建模

最新推荐文章于 2025-09-22 13:48:14 发布

原创

最新推荐文章于 2025-09-22 13:48:14 发布 · 2.3w 阅读

·

7

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#知识图谱 #本体和知识图谱 #问答系统 #问答-聊天机器人

对知识图谱有兴趣的读者可以关注我的知乎专栏，主要介绍知识图谱的相关概念、技术，也包含一些具体实践。

通过前面几篇文章的介绍，读者应该对知识图谱，其相关概念，以及语义网技术栈中的RDF，RDFS/OWL有了一定的了解。然而，之前我们都是在介绍一些概念性的东西。实践才出真知，理论掌握得再好，不能解决实际问题也只是纸上谈兵。因此，笔者准备开一个实践篇，结合理论篇，让读者能够从无到有构建一个领域知识图谱，并在其上搭建一个基于知识图谱的问答小程序。demo比较简单，问答实现是基于模板匹配和正则表达式，整个流程是为了让读者对知识图谱及其相关应用有个直观的认识。

本文作为实践篇第一篇文章，首先介绍我们使用的数据、数据来源和数据获取方法；其次，基于数据内部关系，介绍如何以自顶向下的方式构建本体结构。

一、数据准备

实践篇使用的数据是与电影相关的。基本统计数据如下：
1. 演员数量：505人
2. 电影数量：4518部
3. 电影类型：19类
4. 人物与电影的关系：14451
5. 电影与类型的关系：7898

演员的基本信息包括：姓名、英文名、出生日期、死亡日期、出生地、个人简介。

电影的基本信息包括：电影名称、电影简介、电影评分、电影发行日期、电影类型。

数据是从“The Movie DB”网站获取的，官方提供注册用户API KEY用于查询和下载数据。我本来打算从豆瓣获取电影数据，但现在豆瓣API已经关闭了个人用户申请入口。

本实例数据获取方法：以周星驰为初始入口，获取其出演的所有电影；再获取这些电影的所有参演演员；最后获取所有参演演员所出演的全部电影。经过去重处理，我们得到了505个演员的基本信息和4518部电影的基本信息。数据保存在mysql中，其E

最低0.47元/天解锁文章

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。