知识图谱使我们能够理解不同知识点之间的关系,从而使我们对某个领域或主题有广泛的了解。这些图表帮助我们辨别各个知识片段如何聚集在一起形成更大的图景。显然,构建和可视化知识图谱可以成为许多领域的有效方法。
在本文中,我们描述了一个通过利用处理人类知识的最大公开图:维基百科来生成新知识图的过程。我们将使用 Python 完全自动化生成过程,使我们能够创建一种可扩展的方法来为任何感兴趣的领域生成知识图谱。
方法
我们的方法如下:
🔌 使用维基百科 API 下载与术语相关的信息
🔁 迭代多个术语以建立知识库
🔝 根据“重要性”对术语进行排名
🌐 使用 networkx 库可视化知识图谱
如果您想阅读代码,可以在文章底部中找到它。
维基百科 API
维基百科通过 API 提供其所有知识。最重要的是,有一个很棒的 Python 包,可以轻松扫描网站。使用这个包,我们可以根据搜索词扫描维基百科页面,如下例所示。
import wikipedia as wp
ds = wp.page("data science")
页面对象包含我们遍历图形和理解各种术语之间关系所需的所有信息。该对象需要注意的关键属性是:
links:该页面对其他页面的出站链接 没有维基百科
content:页面的实际内容
summary : 它们是关键内容,显示在页面顶部。
数据科学页面的示例如下所示。
维基百科网站庞大,有 700 万篇英文文章(维基百科,2022 年),这意味着扫描每一页的成本很高,并且会覆盖