SpringBoot 整合 Neo4j，图数据库 YYDS！

最新推荐文章于 2024-07-09 02:54:31 发布

搬砖养女人

最新推荐文章于 2024-07-09 02:54:31 发布

阅读量2.9k

点赞数 2

文章标签： spring boot neo4j 数据库

本文链接：https://blog.csdn.net/m0_68850571/article/details/126941008

版权

本文介绍了知识图谱的概念、发展、三要素和应用场景，特别是搜索引擎和推荐系统的应用。接着，详细讲解了如何在Spring Boot项目中整合Neo4j，包括Neo4j的安装、CQL入门、实体和关系的创建。最后，通过文本SPO抽取展示了动态构建知识图谱的过程，强调了在实际项目中需解决的数据治理、专家缺乏和技术挑战等难点。

摘要由CSDN通过智能技术生成

前一段时间，boss 交给我个任务，让我调研一下知识图谱技术。虽说有点 NLP 的底子，不过研究起这个来还是满头的包，终于还是在搜集了不少资料后划拉出来 50 多页的 PPT。

今天先浅浅的给大家分享一下知识图谱的相关知识，再带着大家实战一下 Neo4j，讲讲如何在 Spring Boot 项目中实现并呈现这张雷神中复杂的人物关系图谱。

知识图谱技术

概述

诞生

知识图谱的概念诞生于 2012 年，由谷歌公司首先提出。大家都知道，谷歌是做搜索引擎的，所以他们最早提出了Google Knowledge Graph后，首先利用知识图谱技术改善了搜索引擎核心。

注意上面的说法，虽然知识图谱诞生于 2012 年，但其实在更早的时间它还有另外一个名字，那就是语义。那么语义又是什么呢？引用《统计自然语言处理基础》中的两句话来解答这个问题：

语义可以分成两部分，研究单个词的语义（即词义）以及单个词的含义是怎么联合起来组成句子（或者更大的单位）的含义。

语义研究的是词语的含义、结构和说话的方式。

那么，知识图谱究竟是个什么东西呢？

你可以将它理解为是在自然界建立实体关系的知识数据库，它的提出是为了准确地阐述人、事、物之间的关系。

目前在学术界还没有给知识图谱一个统一的定义，但是在谷歌发布的文档中有明确的描述：“知识图谱是一种用图模型来描述知识和建模世界万物之间关联关系的技术方法”。

演进

谷歌的 Singhal 博士用三个词点出了知识图谱加入之后搜索发生的变化：

“Things，not string.”

这寥寥的几个单词，点出了知识图谱的核心。以前的搜索，都是将要搜索的内容看作字符串，结果是和字符串进行匹配，将匹配程度高的排在前面，后面按照匹配度依次显示。而利用知识图谱之后，将搜索的内容不再看作字符串，而是看作客观世界的事物，也就是一个个的个体。

举个例子，当我们在搜索比尔盖茨的时候，搜索引擎不是搜索“比尔盖茨”这个字符串，而是搜索比尔盖茨这个人，围绕比尔盖茨这个人，展示与他相关的人和事。

图片

在上面的图中，左侧百科会把比尔盖茨的主要情况列举出来，右侧显示比尔盖茨的微软产品和与他类似的人，主要是一些 IT 行业的创始人。这样，一个搜索结果页面就把和比尔盖茨的基本情况和他的主要关系都列出来了，搜索的人很容易找到自己感兴趣的结果。

三要素

在知识图谱中，通过三元组 <实体 × 关系 × 属性> 集合的形式来描述事物之间的关系：

实体：又叫作本体，指客观存在并可相互区别的事物，可以是具体的人、事、物，也可以是抽象的概念或联系，实体是知识图谱中最基本的元素
关系：在知识图谱中，边表示知识图谱中的关系，用来表示不同实体间的某种联系
属性：知识图谱中的实体和关系都可以有各自的属性

这里所说的实体和普通意义上的实体略有不同，借用 NLP 中本体的概念来理解它会比较好：

本体定义了组成主题领域的词汇表的基本术语及其关系，以及结合这些术语和关系来定义词汇表外延的规则。

例如我们要描述大学这一领域时，对它来说教工、学生、课程就是相对比较重要的概念，并且教工和学生之间也存在一定的关联关系，此外对象之间还存在一定的约束关系，例如一个系的教职员工数量不能少于 10 人。

在了解了上面的三元组后，我们可以基于它构建下面这样的一个关系：

可以看到，女王和王储通过母子关系关联在一起，并且每个人拥有自己的属性。

当知识图谱中的节点逐渐增多后，它的表现形式就会类似于化学分子式的结构，一个知识图谱往往存在多种类型的实体与关系。

知识图谱将非线性世界中的知识信息进行加工，做到这样的结构化、可视化，从而辅助人类进行推理、预判、归类。

到这里，可以简单概括一下知识图谱的基本特征：

知识结构网络化
网络结构复杂
网络由三元组构成
数据主要由知识库承载

场景

搜索

前面提到过，以前的搜索引擎是从海量的关键词中找出与查询匹配度最高的内容，按照查询结果把排序分值最高的一些结果返回给用户。在整个过程中，搜索引擎可能并不需要知道用户输入的是什么，因为系统不具备推理能力，在精准搜索方面也略显不足。而基于知识图谱的搜索引擎，除了能够直接回答用户的问题外，还具有一定的语义推理能力，大大提高了搜索的精确度。

架构

知识图谱的构建目前已有一套比较完善的架构体系，可以先来看一下下面这张图，然后我们再慢慢解释：

总的来说，整体过程可以分为下面 5 步：

1.数据获取：主要获取半结构化数据，为后续的实体与实体属性构建做准备。结构化数据则为数值属性做准备
2.知识获取：从文本数据集中自动识别出命名实体，包括抽取人名、地名、机构名等；从语料中抽取实体之间的关系，形成关系网络；从不同的信息源中采集特定的属性信息
3.知识融合：完成指示代词与先行词的合并；完成同一实体的歧义消除；将已识别的实体对象，无歧义地指向知识库中的目标实体
4.知识加工：构建知识概

最低0.47元/天解锁文章

搬砖养女人

关注

2
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
SpringBoot 整合 Neo4j，图数据库 YYDS！

知识图谱的概念诞生于 2012 年，由谷歌公司首先提出。大家都知道，谷歌是做搜索引擎的，所以他们最早提出了后，首先利用知识图谱技术改善了搜索引擎核心。注意上面的说法，虽然知识图谱诞生于 2012 年，但其实在更早的时间它还有另外一个名字，那就是语义。那么语义又是什么呢？引用《统计自然语言处理基础》中的两句话来解答这个问题：语义可以分成两部分，研究单个词的语义（即词义）以及单个词的含义是怎么联合起来组成句子（或者更大的单位）的含义。语义研究的是词语的含义、结构和说话的方式。
复制链接

扫一扫