技术思考:也谈知识图谱平台中的数据流程与构建范式思考

笔者之前写过一篇文章《关于知识图谱标准化构建平台的思考:知识图谱只能做项目,不能做平台?》,地址:https://blog.csdn.net/lhy2014/article/details/119857488,从技术实现的难度上,对这一平台的实现发表了自己的看法,也突出了其中确实存在的一些现实难题。而即便如此,知识图谱平台,作为一个面向不同领域的标准化、可复用平台,是各大知识图谱公司、企业都在努力的方向。那么,作为一个标准化的知识图谱平台,其构成是怎样的,其数据流程与构建范式是按照一个怎样的流程进行的。带着这个问题,笔者根据自身的经验,展开思考。

一、知识图谱平台的目标

知识图谱平台的目标,最终是提供一个领域数据自适应的、可灵活配置、低成本可扩展可维护的知识系统、工具或服务,对客户不同来源的数据进行结构化整合、联通,发挥出知识的潜在价值。数据自适应,界定了该平台的可复用性,能够根据不同的业务数据提供标准化的处理流程,将差异化的环节压缩到最小;可灵活配置,规定了平台的易用性,即不需要很高的用户学习成本,用户群体可以是业务人员,也可以是代码能力不高的程度员,他们只需要根据自己的需求,通过系统规定的流程进行流程配置即可,小白客户也能轻松入门是最理想的状态;低成本可扩展可维护,是平台的另一个重要特征,即整个知识图谱构建不会是一次性(静态)的,而是会随着业务的扩展,数据情况的变化(数据的格式、数据的规模等)而不断发生改变,这样就要求系统在能够充分适应这种动态变化的同时,能够尽可能的保持稳定、维护成本较低,以此来适应复杂多变的业务场景。

二、知识图谱平台的主要功能

做过知识图谱的朋友都知道,知识图谱最大的价值,就是它的建模规范,正所谓无规矩不成方圆,要对外部的现实世界进行管理、应用,并发挥出潜在价值,那就必须要将外部世界的事物纳入到这个体系当中,这个体系规定了里面有哪些东西以及东西与东西之间的运行规则,这样一来,整个系统才能运转于一个可控的状态之中。因此,知识图谱平台也必定是一个这样一个“有序世界”的外部辅助工具,其提供了一个搭建“有序世界”的入口,细分起来就是“有序世界”的规则、参与“有序世界”规则的数据、数据在这“有序世界”的生产活动三个重要组成部分。
1、本体构建:“有序世界”规则的制定与管理。
这个规则就是我们常说的本体,本体界定了知识图谱中的概念(实体/事件类型)、概念属性(实体/事件的属性/要素)、概念与概念之间的关系(实体/事件的关系),以及概念属性关系的取值约束条件(单值、多值、有限区间)、数据库存储的数据类型(如“ single_string”、“ single_int”、“ single_double”、“ single_bool”)等信息,其中概念属性关系的取值约束条件是本体中容易忽视的一个点,这个东西在有效规避错误知识时大有裨益。因为饿,在当前虚假消息、虚假报道横飞的今天,有违常识的报道越来越多,而作为结构化知识抽取的重要来源,这些数据会直接造成错误的结果,如抽取出<张三,年纪,800岁>,<张三,性别,不知道>等三元组信息,这些在符合句子表达和语义表达规范时,规则和模型并不能将其判负。这时候,如果在定义约束条件时,能够事先将有限的取值条件进行约束,那么就可以作为先验知识抽取模型,不过,需要注意的是,这一工作是很大的,如果要保证有较高的覆盖度,那么所花费的精力是很多的。
当然,我们很显然地可以想到,这一“有序规则”的制定者肯定是对业务数据或者最终实现的业务功能有十分清晰的认识,平台很难给出具有引导性的意见(如果能够,那么可能又会引来一个更大的先验知识的大工

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值