知识图谱1—概览

知识图谱前世今生

知识图谱由最早的语义网络发展过来而来,语义网是通过图结构来记录词语之间的语义关系(之后的还有本体论,Web,语义网,链接数据),而知识图谱对图中的节点意义进行扩充,每个节点对应于现实世界中的实体,整个图谱通过图记录现实世界中不同实体之间的关系,现在还有人提出”知识库”概念

知识图谱技术意义

由于Web中的数据会以不同的格式(结构、非结构、半结构)存在,这样而言,对于这些海量数据的管理和融合的难度会大大增加。对于知识图谱而言,技术人员首先通过自然语言处理等手段将Web中的数据进行知识抽取,根据抽取出的知识链接关系建立一个关系图(Graph),将这些知识”映射”到这张图中,继而在关系型数据结构上人们可以进一步对数据进行进一步的数据管理工作(知识推理,数据分析,数据融合等)

知识图谱最大的意义在于借助在关系型数据上推理出来的知识,让Web中Doc to Doc这种传统知识检索方式进化成Data to Data形式,即每次检索到的一个结果就是关于这个实体的所有信息,而不是一个由某个单独的人编辑的而且内容存在局限性的一个网页(可以很大程度提高知识检索的效率)

已有的一些知识图谱项目:

谷歌知识图谱、KG辅助搜索、KG辅助问答交互、KG辅助决策、KG辅助AI

知识图谱技术概览

以知识图谱为中心展开的技术点包括:知识表示、知识抽取、知识链接、知识众包、知识推理、数据分析、知识问答、语义搜索、可视化等

知识表示:研究如何使用计算机符号来表示人脑中的知识,以及符号之间的运算模拟人脑的推理

知识抽取:对非结构化文本数据经过文本预处理、语法解析、依存分析等操作并对实体进行识别后,进行实体链接,再进一步抽取关系和事件,最终构建为一个三元组或者多元组格式数据

知识推理:基于已有的事实通过计算推理出未知的事实

知识融合:对不同数据源中描述同一实体的信息进行整合,形成更加全面的实体信息

(其他的技术和具体的技术细节之后分章节详细分析)

典型知识库项目简介

Cyc,目标建立人类最大的常识知识库,由Terms与Assertion组成。优点:基于形式化知识表示来刻画知识,缺点:过于形式化灵活性拓展性与灵活性不够

WordNet,词典知识库,用于词义消歧。定义了名词、动词、形容词、副词之间的关系。如名词之间的上下位关系、动词之间的蕴含关系

ConceptNet,也是个常识数据库,与Cyc相比ConceptNet采用非形式化,更接近自然语言的描述。与谷歌知识图谱比较,ConceptNet更倾向于比较词与词之间的关系,接近WordNet

YAGO,链接数据库,集成Wikipedia,WordNet,GeoNames的数据,将WordNet词汇定义与集成Wikipedia分类体系数据进行了融合,有更加丰富的实体分类体系。同时给数据增加了时间和空间维度的属性描述。

还有其他常见的例如Freebase、WikiData,BabelNet(支持多语言),微软Conceptgraph等等。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值