知识图谱——用Python代码从文本中挖掘信息的强大数据科学技术

最新推荐文章于 2024-05-22 07:00:00 发布

「已注销」

最新推荐文章于 2024-05-22 07:00:00 发布

阅读量6.4k

点赞数 8

分类专栏：热点文章 AI 文章标签： Python 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/duxinshuxiaobian/article/details/103085088

版权

全文共6382字，预计学习时长20分钟

图源：Unsplash摄影：Clem Onojeghuo

概览

知识图谱是数据科学中最吸引人的概念之一
学习如何使用Wikipedia页面中的文本构建知识图谱
在Python中使用流行的spaCy库在Python中构建知识图谱

引言

不用过多介绍，大家都知道梅西。即使是那些不关注足球的人，也听说过这位最伟大球员在辉煌。下面是他的维基百科页面:

这个页面包含了很多信息！里面不仅有文本、大量的超链接，甚至还有音频片段。整个网页上有很多相关的和可能会有用的信息，将它们应用到实际生活中可能性是无穷的。

然而，还有一个小问题。这不是给机器提供数据的理想来源，至少不是以现在的这种形式。

是否能找到一种方法，使这些文本数据变为机器可读？能否将这些文本数据转录成既让机器可以使用，也能让我们可以轻松解释的东西？

答案是肯定的。我们可以借助知识图谱(KG)，这是数据科学最吸引人的概念之一。我已经被知识图谱的巨大潜力和实际应用震惊了，我相信你也会和我一样。

在本文中，你将了解什么是知识图谱，以及它们的作用，然后我们将基于从维基百科中提取的数据，来构建知识图谱以用于深入研究代码。

目录

1. 什么是知识图谱？

2. 如何在图谱中表示知识？

○ 句子分割

○ 实体抽取

○ 关系抽取

3. 依靠文本数据构建知识图谱

什么是知识图谱？

先明确一个概念：在本文中经常出现的术语“图谱”，并不是指柱状图、饼状图或线状图，而是相互关联的实体，它们可以是人、地点、组织，甚至是一个事件。

不妨说，图谱是节点和边*的组合。

看看下面的数据:

*边（Edge）是节点间的连线，用于表示节点间关系。

这里的节点a和节点b是两个不同的实体，节点通过边连接。如图是我们可以构建的最小的知识图谱——它也被称为三元组（实体-关系-实体）。

知识图谱有多种形状和大小。例如，截至2019年10月，维基数据（Wikidata）的知识图谱有59,910,568个节点。

如何在图谱中表示知识？

在开始构建知识图谱前，我们需要了解信息或知识是如何嵌入到这些图谱中的。

举例来解释：如果节点a=普京，节点b=俄罗斯，那么边很可能是“俄罗斯总统”:

一个节点或实体也可以有不止一个关系。普京不仅是俄罗斯总统，他还曾为苏联安全机构克格勃工作。但是如何把这些关于普京的新信息，整合到上面的知识图谱中呢？

其实很简单。只需为新实体“克格勃”再添加一个节点:

新的关系不仅可以添加在第一个节点，而且可以出现在知识图谱中的任何节点，如下所示:

俄罗斯是亚太经济合作组织(APEC)的成员国

识别实体和他们的相互关系并不是一项困难的任务。但是，手动构建知识图谱是难以处理大量信息的。没有人会浏览成千上万的文档，然后提取出所有的实体和它们之间的关系。

因此，机器无疑是更好的选择，浏览成百上千的文件对它们来说简直小菜一碟。但是还有另外一个挑战——机器不懂自然语言。这就轮到自然语言处理 (Natural Language Processing，简称NLP) 技术出场了。

想要从文本中构建知识图谱，让机器能理解自然语言就至关重要。这可以通过使用自然语言处理(NLP)技术来实现，如句子分割、依存句法分析、词性标注和实体识别。下文将更详细地对它们进行探讨。

句子分割

构建知识图谱的第一步是将文本或文章分割成句子。然后，列出那些只有一个主语和宾语的句子。下面是示例文本:

“在最新的男子单打排名中，印度网球选手苏米特•纳加尔(Sumit Nagal)从135名上升了6个名次，达到职业生涯中的最好成绩129名。这位22岁的选手最近赢得了ATP挑战锦标赛。2019年美国网球公开赛中他首次亮相时，就在对阵费德勒的比赛中赢得了大满贯。纳加尔赢得了第一组比赛。（Indian tennis player Sumit Nagal moved up six places from 135to a career-best 129 in the latest men’s singles ranking. The 22-year-oldrecently won the ATP Challenger tournament. He madehis

最低0.47元/天解锁文章

「已注销」

关注

8
点赞
踩
60

收藏

觉得还不错? 一键收藏
0
评论
知识图谱——用Python代码从文本中挖掘信息的强大数据科学技术

全文共6382字，预计学习时长20分钟图源：Unsplash摄影：Clem Onojeghuo概览知识图谱是数据科学中最吸引人的概念之一学习如何使用Wikipedia页面中的文本构建知识图谱在Python中使用流行的spaCy库在Python中构建知识图谱引言不用过多介绍，大家都知道梅西。即使是那些不关注足球的人，也听说过这位最伟大球员在辉煌。下面是他的维基百科页...
复制链接

扫一扫

专栏目录

「已注销」 CSDN认证博客专家 CSDN认证企业博客

码龄5年

2070: 原创

-: 周排名

-: 总排名

340万+: 访问

: 等级

4万+: 积分

4917: 粉丝

4456: 获赞

1312: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

热点文章 552篇
AI 1079篇
热点文章 559篇
干货文章 39篇
热门文章 1篇
学术报告 11篇
干货文章 69篇
学术报告

最新评论

提前返回有好处吗？
温庭筠: 我不使用提前返回, 因为接手别人的代码时确实比较难理解一旦代码达到了维护阶段，新手程序员试图推理逻辑时，多次返回就会大大影响他们的效率（当注释比较分散，代码模糊不清时尤其糟糕）
在Windows系统和Linux系统中，如何打造一个好终端？
全栈小5: 文章结构严谨，每次阅读都能收获知识，感谢博主的分享，期待博主继续更新高质量文章，支持！【如何让windows终端和linux一样好用，博主这篇文章，值得一看】
NLP入门第一步：6种独特的数据标记方式
麦甜守望者: 有中文怎么标注的吗？
海量案例！生成对抗网络（GAN）的18个绝妙应用
PreWisdom: 18 Impressive Applications of Generative Adversarial Networks (GANs) by Jason Brownlee on July 12, 2019 in Generative Adversarial Networks https://machinelearningmastery.com/impressive-applications-of-generative-adversarial-networks/ 你知道我要说什么吧，你这完全是把别人的文章简单翻译了一下搬过来了，然后你发原创，真行啊
从零开始的人工智能和机器学习，该从哪里入手呢？
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/8023395, 请多输出高质量博客, 帮助更多的人

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。