知识图谱构建

最新推荐文章于 2024-07-02 17:51:41 发布

406

最新推荐文章于 2024-07-02 17:51:41 发布

阅读量1.6k

点赞数

分类专栏：知识图谱文章标签：知识图谱

本文链接：https://blog.csdn.net/qq_27374315/article/details/86596092

版权

本文介绍了知识图谱的构建过程，包括知识图谱的定义、信息抽取（数据获取、预处理、使用DeepDive进行信息抽取）、知识融合（实体链接和知识合并）以及知识加工（本体构建和知识推理）。知识图谱的构建涉及从非结构化和结构化数据中抽取信息，通过实体链接消除歧义，利用本体进行知识表示，并通过推理扩展知识网络。

摘要由CSDN通过智能技术生成

知识图谱构建

1.知识图谱

知识图谱的定义
知识图谱最先由Google提出，是用于增强其搜索引擎功能的知识库。本质上, 知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图，节点表示实体或概念，边则由属性或关系构成。现在的知识图谱已被用来泛指各种大规模的知识库。知识图谱中包含三种节点：

实体：指的是具有可区别性且独立存在的某种事物，如某一个人等
属性(值) ：从一个实体指向它的属性值。如人的属性有性别等
关系：两个实体之间的联系

知识图谱的架构
知识图谱从逻辑上可以划分为2个层次：数据层和模式层。
在知识图谱的数据层，知识以事实（fact）为单位存储在图数据库。图数据中有“实体-关系-实体”或者“实体-属性-属性值”两种三元组，所有数据构成庞大的实体关系网络。
模式层在数据层之上，是知识图谱的核心。模式层存储的是经过提炼的知识，通常采用本体库来管理知识图谱的模式层。

知识图谱的构建
知识图谱的构建包含三个阶段，分别是：信息抽取、知识融合以及知识加工。
信息抽取的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元。关键技术包括：实体抽取、关系抽取和属性抽取。
知识图谱有自顶向下和自底向上2种构建方法。
自顶向下是从百科类网站等高质量数据源中提取本体和模式信息，加入到知识库中。
自底向上是从公开采集的数据中提取出资源模式，选择其中置信度较高的新模式，经人工审核后，加入到知识库中。

2.信息抽取

获取数据
非结构化数据的获取：
本次数据使用了巨潮资讯网上上市公司的深圳主板上的上市公司的公告信息。从巨潮网上查看控制台中的network发现巨潮资讯网在公告信息这一模块是通过post请求加参数来发送request，因此只要构建一个和巨潮网相同的请求的参数列表即可。然后将返回的url链接存入csv文件，通过csv文件保存的pdf文件的链接地址，通过python的pdfminer库将pdf文件下载存储为一个txt文件。

结构化数据的获取：
巨潮资讯网中有结构化的公司的高管人员信息和公司概况信息。经过分析发现高管信息和公司概况信息网页是动态加载的，里面的内容都是通过js来控制iframe进行展现的，因此通过scrapy的response.body获取的网页的返回结果没有完美所需要的数据，所以采用python的beautifulsoup库进行信息的爬取。从巨潮公司的上市公司的公司列表页面中获取公司的股票代码，然后通过公司的股票代码从公司信息页面中获取公司的高管信息和共公司概况。