学习和使用知识图谱需要知道的一些事情

最近几年,随着人工智能的关注度提升,以及企业对于知识图谱技术的追捧,学习知识图谱的学生和技术人员越来越多,但是很多人学习知识图谱的时候,基本上处于盲人摸象的程度,要不只知道一些皮毛,要不只熟悉知识图谱相关的某个技术,无法掌握知识图谱技术的精髓,导致实践做不好,科研也找不到方向,只能跟风。下面我总结一下自己在知识图谱研究和实践中一些经验和总结,希望对于知识图谱爱好者有所帮助。

一、知识图谱的学习涉及到的技术比较多,不局限于人工智能技术,所以一个好的知识图谱工程师,需要不断去学习知识图谱相关的各种技术,充实自己的武器库,从而能够更好的解决实际问题。那么会涉及到什么技术呢?

首先,需要去了解知识表示和推理相关技术,特别是RDF,RDFS,OWL相关技术,以及本体推理(重点关注RDFS前向推理技术和查询重写技术)、规则推理相关技术(重点关注产生式规则和Datalog),这是知识图谱构建的关键技术,在垂直领域知识图谱构建中,如果没有构建一个高质量本体,知识图谱的质量往往无法得到保证。

其次,需要去了解数据库到知识图谱转化到技术,数据库是垂直领域知识图谱构建的重要来源,如果一个领域缺乏数据库,那么构建知识图谱的成本可能会很高,R2RML语言就是用于从数据库到知识图谱转化的一个语言。

之后,需要了解机器学习技术和自然语言处理技术,这是因为我们可能还需要从文本或者图像或者视频或者语音数据中抽取知识,这就需要用到机器学习和自然语言处理技术。

但是,由于采用机器学习和自然语言处理技术往往无法得到一个高质量的知识图谱,需要人工校对知识图谱,以及在应用这些技术的时候可能需要足够的标注数据,所以还需要引入众包技术,来提升知识图谱的质量。

再次之后,还需要考虑知识融合和知识更新技术,这是因为知识可能来源于多个数据源,并且这些数据源的数据也会更新,从而我们需要对来源于不同数据源抽取的知识进行融合,同时利用知识更新技术对知识图谱进行更新。

最后,需要对知识进行补全,一方面可以通过知识推理(基于本体的推理、规则推理以及基于知识表示学习的推理或者路径推理)来对知识进行补全,另外一方面可以通过应用来对知识进行补全,比如说通过智能问答或者阅读理解来对发现知识的缺失,从而进行补全。

当然,知识图谱技术的发展非常快,最近也有一些其他的技术,比如说基于区块链的知识图谱构建技术,以及不确定性知识图谱表示和推理技术。

二、知识图谱能否自动化构建?

企业用户非常期望知识图谱可以自动化构建,这个期望其实是很奇怪的。根据前面所讲,知识图谱的重要来源之一就是数据库,知识图谱构建的难度和成本都要超过数据库,人们从来不会去期望自动化构建数据库,为什么会期望更困难的一件事,即构建知识图谱,可以自动化实现?应该说,即便是互联网公司,像谷歌,拥有最先进的知识图谱技术,且互联网的搜索和推荐应用对知识图谱的质量要求要远低于其他企业,但是这些公司构建知识图谱也是有一套严格的质量控制体系,而不会去要求自动化构建知识图谱的。

如果看了前面知识图谱构建所需的技术,就知道自动化构建知识图谱是多么的不现实。即便是我们有高质量的数据库(注意:数据库也有很多空值、错误、异构问题),我们也无法通过数据库自动化构建一个知识图谱,因为我们需要去构建本体,而这是目前无法做到自动化的,需要根据需求来分析和构建。对于文本、图像、音频这些非结构化数据,更不能指望通过自动化方法构建知识图谱。知识图谱的研究者和实践者不应该去过度宣传自动化构建知识图谱,这只会让过度消费知识图谱,从而对知识图谱的发展产生不好的影响。

三、知识图谱能否高效构建?

虽然自动化构建知识图谱是无法做到的,但是不代表我们无法高效构建知识图谱。得益于大数据技术的发展,现在很多企业和政府部门已经积累了大量高质量的数据,特别是关系数据库的数据,通过这些数据可以非常快速的构建一个高质量的知识图谱。而对于非结构化数据,文本数据的处理在领域中可以通过一些商用级知识图谱平台来实现。

知识图谱高效构建的一个途径是充分利用现有的知识图谱,也即采用知识复用(knowledge reuse)。越来越多的企业和大学机构以及个人愿意共享他们构建的高质量知识图谱到开放知识图谱平台openKG,这将使得知识复用得到更好的实现。

随着预训练模型和人机交互技术的发展,以及这些技术在知识图谱平台的应用,知识图谱的构建成本还会进一步下降。

四、知识图谱跟预训练模型的关系是什么?

最近预训练模型在自然语言处理方面取得了很大的成功,很多自然语言处理的任务都可以通过预训练模型得到更好的结果,也许有一些自然语言处理的任务将来不需要再用深度学习或者采用特征工程的机器学习技术,而是直接采用预训练模型就可以完成,但是这并不意味着知识图谱构建仅仅采用预训练模型就可以完成,这一点看过这个帖子前面部分就很容易了解。由于预训练模型对于文本和图像的处理有很好的作用,特别是在标注数据缺少的情况下可以取得不错的结果,从文本和图像等非结构化数据构建知识图谱对于预训练模型的依赖会越来越多,但是预训练模型并不能对知识图谱构建的所有步骤都取到关键性作用,比如说从数据库构建本体的技术目前用不上预训练模型,未来也还是要通过知识工程师来实现。

五、知识图谱研究和实践的挑战是什么?

理论方面,知识图谱的表示和推理还有不少工作要做,知识图谱目前采取的是三元组的方式对知识进行建模,但是随着应用的深入,我们会发现越来越多的知识需要采用多元组的方式进行表达,比如说时序知识,事件知识,如何处理多元组知识是知识图谱表示需要考虑的问题。另外,知识图谱构建不一定可以保证绝对正确,一般会有不确定性,不确定性知识图谱的表示和推理目前缺乏研究。目前的知识图谱表示语言还是基于RDFS,但是未来会有更多的表达能力需要引入,这就需要扩展到OWL,但是OWL的推理机能否支持百亿甚至更大规模图谱的高效推理,目前还停留在学术层面,商用化软件缺乏。

实践方面,重点应该关注如何在低成本的情况下构建知识图谱,这也是预训练模型可以发挥作用的地方,但是光看预训练模型是解决不了问题的,我们做过的实验表明预训练模型在领域知识抽取方面并不是特别好,还需要结合元学习、持续学习、迁移学习等技术,以及把深度学习跟规则结合的抽取技术,还有人机交互抽取技术,这些都是未来知识图谱构建可以着重研究的技术。

文章来源:南京柯基数据科技有限公司  首席科学家漆桂林

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值