知识图谱

最新推荐文章于 2023-11-04 12:11:43 发布

qfzxhy

最新推荐文章于 2023-11-04 12:11:43 发布

阅读量3.5k

点赞数

分类专栏：信息抽取文章标签：知识图谱

本文链接：https://blog.csdn.net/qfzxhy/article/details/53447624

版权

信息抽取专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1. 什么是知识图谱
在互联网时代，搜索引擎是人们在线获取信息和知识的重要工具当用户输入一个查询词，搜索引擎会返回它认为与这个关键词最相关的网页。从诞生之日起，搜索引擎就是这样的模式，直到2012年5月，搜索引擎巨头谷歌在它的搜索页面中首次引入“知识图谱”：用户除了得到搜索网页链接外，还将看到与查询词有关的更加智能化的答-案。如下图所示，当用户输入“Marie Curie”（玛丽·居里）这个查询词，谷歌会在右侧提供了居里夫人的详细信息，如个人简介、出生地点、生卒年月等，甚至还包括一些与居里夫人有关的历史人物，例如爱因斯坦、皮埃尔·居里（居里夫人的丈夫）等。
知识图谱是谷歌首选提出，分为模式层（概念）+数据层（实例）。以rdf三元组<实体1，关系，实体2>组成。其中模式层也可以称为本体，最基本的本体包括概念、概念层次、属性、属性值类型、关系、关系定义域概念集以及关系值域概念集。在此基础上，我们可以添加规则或公理来表示模式层更复杂的约束关系。用途十分广泛，可用于查询理解、知识问答、短文本分析、文档表示等等
2. 知识图谱构建简单介绍
目前知识图谱的建立通常采用自顶向下和自底向上相结合的方式。自顶向下的方式是指通过本体编辑器预先构建本体。当然这里的本体构建不是从无到有的过程，而是依赖于从百科类和结构化数据得到的高质量知识中所提取的模式信息。即构造Taxonomy。图谱模式定义了领域(domain), 类别(type)和主题（topic，即实体）。每个领域有若干类别，每个类别包含多个主题且和多个属性或关系(properties)关联，这些属性或关系规定了属于当前类别的那些主题需要包含的属性和关系。自底向上的方式则通过上面介绍的各种抽取技术，特别是通过搜索日志和万维网表格 (Web table)来抽取所发现的类别、属性和关系，并将这些置信度高的模式合并到知识图谱中。即抽取relationships。自顶向下的方法有利于抽取新的实例，可保证抽取质量；而自底向上的方法则能发现新的模式。当从多个数据源获取知识时，那么知识合并是必不可少。那么需要考虑的问题就很多了，比如实体消歧（乔丹问题）、共指消解等等
知识提取后需要考虑知识存储和维护，一般采用带json扩展的关系数据库，也可以用如Neo4j、OrientDB的图数据库。，网络爬虫不间断地抓取百科页面词条的infobox或相关的文本信息，以三元组文本形式将知识数据在本地存储起来。数据导入程序采用多线程的方式不间断扫描三元组文件，并在数据导入层进行了去重处理，保证导人到 mongodb中数据的唯一性。基于此套流程，知识图谱系统的后端就可以在无人工操作监督的情况下快速构建，使得数据量不断累积，从而使得知识图谱覆盖的知识领域更加丰富。由于维基百科等数据源经常更新（比如奥巴马任期结果，就变为前总统），所有我们需要经常更新数据，一般做法分为从头开始构建和增量式构建。第一种方法简单，但耗时。第二种方法省时，但是当维基新的数据更新后，我们需要针对该数据转换成规则，并且程序解析规则来更新图谱，难度大。一般都采用第一种方法。除了上述自动更新外，还可以人为更新，因为人的判断是最准确的，人可以通过手动写规则来增加或者修改知识图谱的边节点等等