让知识构建未来—知识图谱技术与应用 | AI TIME-33

点击蓝字

236a25840d3205965ebb65dd53c8dc06.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

21a97a62b26be338098b534d51211821.gif

以深度学习为代表的人工智能获得巨大进展,但深度学习的不可解释性已成为制约其发展的障碍,“理解”与“解释”是人工智能需要攻克的下一个挑战,而知识图谱为“可解释的人工智能”提供了全新的视角和机遇,并带来新科技、商业和社会新纪元——认知智能时代。

为了全面剖析知识图谱的特性与前沿研究,AI TIME组织“知识构建未来,知识图谱技术与应用”分论坛,活动于9月2日下午通过北京线下,上海线上直播相结合的方式举办。本论坛由世界人工智能大会组委会办公室为指导单位,清华—中国工程科技知识中心智能联合研究中心、东浩兰生(集团)有限公司主办,AI TIME承办,北京智谱华章科技有限公司协办。

知识图谱以结构化的方式描述客观世界中的概念、实体及其间的关系,将互联网的信息表达成更接近人类认知世界的形式,已经成为互联网知识组织和内容理解的重要基础设施和推动人工智能发展的核心驱动力之一。

作为人工智能的核心命题,知识资源及其支撑平台的建设一直伴随人工智能发展。因此,对知识图谱的研究具有重大意义。

本论坛特别邀请了学界和业界专家共同探讨知识图谱技术发展与应用,实现可解释的AI。

37c249d5013548f4a792c69026154817.jpeg

清华大学李涓子分享了课题组在面向知识的复杂问答可解释推理编程方面的研究,旨在研究自然语言复杂问题的深度语义理解技术。复杂问题是不能直接从互联网检索得到答案、需要利用多种推理能力形成问题答案的问题。可解释推理编程就是对复杂问题进行理解,将理解结果表达为由基本函数组合而成的可执行程序,程序运行的结果就是问题的答案。复杂问答可解释推理编程可以实现对问题的推理透明化,具有良好的可解释性。李涓子介绍了课题组提出的面向知识的编程语言KoPL(Knowledge Oriented Program Language),构建的带自然语言负载问题和KoPL程序标注的大规模数据集KQA Pro,以及基于程序迁移的自然语言问题语义解析方法。李教授还介绍了课题组构建的可视化的知识编程平台 VisKoP,该平台将 KoPL 程序的编写转化为图形操作元素,并提供了知识自动补齐、KoPL 错误检测等功能。最后对未来面向知识的多资源复杂问答推理的研究进行了展望。

浙江大学的陈华钧从神经符号计算探讨了知识图谱的进阶发展。当前除了运用神经网络方法对概念、实体及图结构进行表示学习,对于一些更加复杂的逻辑结构也可以进行表示学习。另外一个重要发展趋势是符号表示的神经网络化,这包括符号语言的预训练、符号知识图谱的表示学习、符号规则的表示学习等等。基于神经网络和符号表示的融合,陈老师团队也进行了一些集成的工作,包括神经符号集成的知识图谱查询、神经符号推理、神经符号预训练等等。他们希望可以用以符号为规则的处理手段和知识图谱表示学习的手段迭代,进行神经符号的推理、查询和预训练。陈华钧最后总结道,符号化显示表示具有可解释性好的优点,而参数化隐式表示更加易于推理和计算。

来自Mila的唐建主要分享的是知识图谱上的推理问题,人们不可能在一个单一的知识图谱上搜集所有的数据,如何基于已有的知识去预测未知的知识呢?将整个知识图谱投影到向量空间,之后再在向量空间上做推理。但是这种方法却不具有很好的可解释性。也有学者提出了一种基于路径的方法,其最大的优点是具有很好的可解释性。当人们计算两个节点之间的最短路径时,可以把两个点之间所有可能路径枚举出来。总体而言,在知识图谱推理领域中,基于这种可解释性的、路径的方法是一个比较大的趋势。这些算法的优点在于不仅可以做到transductive generalization,也能做到inductive generalization。

中国人民大学张静对知识图谱问答的现状及挑战进行了介绍,包括基于神经网络的推理和基于符号规则的推理,以及神经与符号结合的新方案。张静团队最近尝试了一种新的用神经网络提升符号解析问题的方法。为了降低神经网络对复杂问题解析的难度,他们将已有的解析方法拓展成了检索解析方法,希望利用额外的检索器可以将与问题相关的知识和逻辑语句解耦出来,使得后续的解析器只负责知识与逻辑语句组合的功能。即便如此,知识图谱问答仍然面临很多挑战,譬如知识零样本泛化问题,其泛化难的主要原因是自然语言问题和知识图谱元素表达之间的差距,以及自然语言问题的语法结构与知识图谱知识关联结构之间的差距。此外,知识图谱永远不可能是完备的,即便解析正确也不一定能够执行出结果,执行器需要能够聪明地决策是从知识图谱还是Web甚至是大模型上去执行才能获得答案。

来自百度的杰出架构师陆超也对近些年百度知识图谱的技术创新及产业实践进行了介绍。以面向产业化应用需求及技术自身演进为驱动,百度构建了世界上规模最大的多元异构知识图谱,包含数十亿实体及数千亿事实。随着数字经济时代来临,企业数据利用数据意识觉醒,亟需从数据中沉淀知识并运用知识来获取洞察辅助决策。针对该问题,百度将通用图谱上深厚技术积累快速迁移至行业,建立行业知识图谱技术体系,并以深入场景打磨与跨场景迁移标准化双驱动来推进解决。以深入医疗行业场景为例,百度期望通过AI能力辅助基层医生诊疗决策,提升基层诊疗质量。医疗专业性及临床严肃性使得医疗语言理解及推理决策的可解释面临极大挑战,百度运用行业知识图谱技术设计并成功实践了可循证医学知识引擎,首创基于数据与知识融合的场景图推理技术对患者病情进行刻画并给出可解释临床建议。目前,百度已将相关技术及实践经验快速迁移至其他行业进行赋能。最后,陆超从知识构建、知识表示和知识计算及应用三个方面对未来进行了展望,并表达了对未来工业界和学术界取得突破的期望。

同济大学特聘研究员王昊奋向大家介绍了面向医学多模态数据的视觉问答实践与挑战,他提出如今的问答发展其实是范式的提升,随着使用场景的渐渐丰富,大家对问答的期望和要求也和之前变得不同。对于视觉问答,输入一般都是给定图片或视频,同时去回答相关的自然语言问题。简单的问题可能就是纯视觉问题,而复杂一些的问题可能需要我们额外掌握一些其他领域的知识。

Debate

知识图谱是实现“机器像人一样思考”的必经之路吗?

1

现有挑战

(1)知识图谱已被用于提升大模型在各个领域上的效果,例如自然语言生成、机器阅读理解等。现有方法大多从预训练任务与模型结构层面融合知识图谱与大模型,这是否是知识图谱的最佳引入范式?是否存在一种更有效的途径将二者相结合?

张静针对知识图谱和预训练语言模型的融合分享了她的看法,主要有两条路:预训练的时候做一个内嵌融合,下游任务上做一个外挂融合。她认为知识图谱可以看作一种Schema非常丰富的数据库,存储在其中的数据可以是非常动态的。预训练语言模型的训练花费巨大、训练困难,最好能够在内嵌知识图谱时仅融入一些相对静态的知识,动态变化的内容不需要在内嵌时融入,否则模型更新的代价太高。对于动态变化的知识图谱,更可能的融合方法是外挂,通过实时检索将知识融入下游任务的推理中。

陆超认为大模型与知识图谱的结合可以从训练样本构建、模型结构设计到模型预测全系统流程来进行,在训练样本构建阶段基于知识引导来建立高质量样本,在预测阶段基于知识检测冲突、溯因推理进而反馈模型迭代重训。而在模型结构设计层面,需要注意的是,现阶段大家所熟知的知识图谱里更多还是以信息为主,而非经归纳抽象后的知识。在模型结构层融入信息可能增益会很有限,但引入抽象归纳后知识(比如概念层知识、常识)还是会起到增强的效果。

刘康认为该问题是一个非常灵活的问题,在对非结构化的文本训练大模型的同时,人工加入一些异构信息,肯定对于提升大模型的效果有所帮助。

唐建认为这个问题某种程度上是对的,某种程度也是不对的,要看我们最终关心的任务是什么。从对的角度来看,知识图谱作为一种额外信息或知识加入到预训练模型之中,但是融合的过程也存在挑战。如今的预训练模型在做知识推理的时候表现并没有特别好,但是知识图谱却比较擅长可解释性的推理。即使我们将知识图谱加入到预训练模型之中,我们也还没有找到一种模型可以同时对两种数据进行建模。所以从技术的角度而言,能否找到一种通用结构可以同时对两种data建模也是一个挑战,硬性的融合可能会带来一些损失。

胡琳梅认为面向知识图谱的预训练模型的传统方法还是不够的,能够找到一种像Transformer一样对文本预训练很有效的模型去做预训练,甚至能将两者的数据统一,这样也会对推理很有帮助。

(2)通过借助知识图谱将丰富的外部知识融入模型中,这是否能够给NLP领域带来新的突破?能否催生出新的应用?

陆超提到最近比较热的AIGC技术——基于AI的内容自动创作。对于AIGC而言,融入知识会让生成的结果更加可信和可控。

刘康认为引入知识肯定会对NLP带来突破,但这不是终点的目标。他介绍了自然语言理解的5个层级,我们最终还是需要将大量的知识和数据引入到NLP的模型训练之中。他认为即便引入知识是必要的,但是否以知识图谱的形式引入还是值得商榷。对于规则性的知识如何生成、刻画和嵌入模型,还值得人们去研究。

唐建提出文本和知识图谱的优势与劣势在哪里是值得人们去思考的,比如无结构文本的优势在于量大,但是又无结构化且充满噪音;知识图谱则是具备结构化且有可解释性,但缺点在于量小且不完备。那么在哪些情况下是需要知识图谱这类数据的呢?他提出某些领域中的知识图谱还是很必要的,如药物研发领域中解释找到的药物为什么有用。

2

技术现状

(1)大模型已经在各领域展现出强大的能力,但是由于其黑盒特性,研究人员依旧不能很好地解读大模型具有如此强大能力的原因,模型可解释性依旧需要进一步完善。如何借助知识图谱解读大模型在诸多任务上的表现效果?如何利用知识提高其可解释性?

唐建认为一个比较常用的做法是多步推理,比如找到答案后去知识图谱中找一些重要路径来解释为何做这些预测。

刘康提出知识图谱和大模型比较起来,人是更容易理解知识图谱的,但是大模型涵盖的数据量是远远大于知识图谱的。对于大模型的解释,如何保证对原模型的忠实度还需要人们后续去研究。因此,他认为,知识图谱与增强大模型可解释性上的关系并不是特别的大。

张静也认为大模型的可解释性不一定与知识图谱有很大的关系。譬如大模型在做情感分类的时候都没有用到知识图谱,做出来之后却要用知识图谱来解释就有些不恰当。

陆超认为解释方式有两种,一种是模型过程白盒化,另一种是对结果的循证。对于后者而言,在模型结构上设计上如果能获取到输入中影响结果的要素(比如Attention机制),那就可以基于知识图谱技术来对要素集及结果间进行循证,从而获得可解释证据。

胡琳梅提出了知识图谱之中最基础的问题和最具前景的方向都是哪些的问题。各位嘉宾也对此分享了各自的看法。

唐建认为是知识图谱的构建问题。如何构建一个高质量的知识图谱,是一个比较基础性的问题。之后的应用层面,他提出他们团队做的比较多的领域是知识图谱推理问题,在未来应该也是比较重要的方向。

刘康认为,基础性问题是知识的表示。这也是最制约我们做知识图谱的一个核心问题,传统三元组能够表现的知识是非常有限的,无法将很多类型的知识进行描述,我们也无法做后续的获取和构建。

陆超认为核心确实是知识的表示及计算方法问题,即如何建立知识的有效表达并基于此提供一套运算机制。知识图谱只是实现知识表达与计算的一种路径。

张静认为,知识约束的生成也许是未来几年的一个关键问题。刚刚也提到知识在生成的时候存在许多问题,所以希望可以在输入的时候提供一些约束。如何把复杂的知识譬如逻辑关系给到大模型的输入作为约束,使其可以生成正确的表达式是需要我们去思考的。

(2)多模态方向目前被业界广泛关注,如何基于实际应用场景构建高质量多模态知识图谱?

胡琳梅提到目前的多模态知识图谱大多还是将图片作为节点的属性,有没有必要对图片里的细节进行进一步挖掘呢?

陆超提到产业界的多模态知识图谱构建目标与应用场景强相关,比如面向图片、视频类搜索、推荐等产品,多模态资源间、资源与本体间的语义互链构成一个基本的多模态知识图谱,可以基本满足产品所需。再比如针对跨模态预训练任务,图片、视频中场景类知识对于其语义的刻画很重要,通过对场景知识图谱构建,并基于此引导样本构建以及对预训练模型进行场景图知识增强,在比如跨模态匹配或检索、问答等下游任务上都会有明显的效果提升。

3

产业落地

(1)近年来,各行业都在数字化转型,一些大型或头部企业都在想办法构建自己的行业知识图谱,但过程中遇到很多问题,诸如:数据源不规范( 很多知识不是靠单一的三元组知识能解释的,可能很隐晦,根本不是以三元组知识存在的)、投入成本高、存在跨行业知识壁垒、业务场景不明确等。如何与行业实际应用场景结合,构建行业知识图谱,提升知识图谱在行业中的实际业务效果?未来是否有望不依赖人工?

陆超提到我们需要首先思考构建的知识要用来做什么,毕竟知识都是用来解决问题的。在对结果精度要求不高的时候,对人工的依赖也不高。但是当精度要求足够高甚至达到99%时,人工的代价也会比较高。我们需要追求如何将知识用于更好的计算,而不是更好地展示或是可视化。

刘康认为对于领域知识的建模与下游任务密切相关。大模型可以看作是一个很好的契机,预训练模型提供给我们一种能力,自动从多类型数据中学习知识。

唐建觉得对于精度较好的情况,人工的付出也是必要的,毕竟机器的准确率也是不可控的。而在对准确度要求没有那么高的领域,我们对于人工的依赖是可以降低的,比如知识图谱进行推荐。

(2)大模型本身蕴含知识,对业务提升效果比较显著,但让大模型融入知识,这个过程需要较大的计算代价,比如算力的成本高等,对于产业界来说,投入与产出是不成正比的。那么,融合知识图谱是否有必要性?

陆超认为融入知识的本意是为了降低计算成本,可能是当前还没有找到合理的路径。这也是希望学术界与产业界能够一起深入研究的问题。

唐建认为这个问题当前还是依赖于怎样融合的问题。我们目前还没有找到一个很好的模型,既能够建模文本,还可以建模三元组。直接去融合的情况大多是仅仅将三元组当作一个句子加进去,这样最后对预训练模型引入的新知识可能也没有那么多。我们今后需要一个更好的模型来挖掘出知识图谱中更好的work,同样对一些比较复杂的任务如复杂知识推理来说,融合知识图谱也是有必要的。

4

展望未来

(1)知识图谱不可避免受限于知识的覆盖率,是长期的难题。

(2)大模型参数内蕴含了大量知识,被视作是某种意义上的知识库。

(3)只要能以合理地方式探测出知识,是否就不需要花费人力物力来构建知识图谱?

(4)未来5-10年,知识图谱是否还有存在的必要?

唐建提到了现在一个重要的方向是AI for Science,物理化学等领域的那些知识并不是以三元组的形式存在的,但是将其融入进AI Model同样非常重要。未来AI+Knowledge在传统领域还是会是一个非常重要的方向。

刘康认为在如今大模型流行的情况下,是否还要人工构建知识图谱要根据应用判断。

张静提到知识图谱是有必要的,但不见得要和大模型耦合在一起。知识图谱可以看作一个巨大的知识储备,大模型更多可以被用来解析理解输入意图,从知识储备中获取知识,并最终进行组合推理。

265dc9fa30d30100a7eef83a647988e1.jpeg

整理:林   则

作者:AI Timer

往期精彩文章推荐

bdcb6f03b0becad355da71e5c5c1089c.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了800多位海内外讲者,举办了逾400场活动,超400万人次观看

71881bb0acad736b64a5aed2d7cb7e33.png

我知道你

在看

~

98a1a14ebc492f73c7a21afdb8369244.gif

点击 阅读原文 查看回放!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值