演讲嘉宾 | 肖仰华(复旦大学教授、博士生导师,知识工场实验室负责人)
编辑 | Jane
出品 | AI科技大本营(ID:rgznai100)
近两年,知识图谱技术得到了各行各业的关注,无论是企业公司还是开发者个人,都对这项技术有着极大的了解与使用需求。在近日的 AI开发者大会(AI ProCon 2019)的知识图谱技术专题,演讲嘉宾为开发者们分享了该领域技术应用的实践经验与未来发展趋势。
其中,复旦大学教授、博士生导师,知识工场实验室负责人肖仰华教授从知识图谱目前所面临的机遇与挑战出发,分析了大规模知识图谱自动化构建的三个要素、三大原则和五个环节,并重点讲解了知识图谱落地的九大构建策略,这将帮助开发者聚焦知识图谱的主流方向,助力企业构建自己的知识图谱。
以下为肖仰华教授的演讲内容实录,AI科技大本营(ID:rgznai100)整理:
首先非常开心能有机会再次在 CSDN 和大家分享我们在知识图谱的构建和应用方面的工作和一些思考。今天给大家带来的题目是《知识图谱构建与应用 In Practice》。
凡是做知识图谱工作的都有一个体会:最近知识图谱的研究特别火热,大家可以看到大量知识图谱的论文和成果,但真正把这些来自大公司或者名校的论文或技术成果拿到自己的应用场景中时,就会切实感受到各种各样的问题,“技术还是别人家的技术”,尤其在知识图谱领域中更是如此。
但学术界的成果真的没有可取之处吗?其实不然。还是有一些非常实用的方法、经验可以借鉴的。所以,今天我就想跟大家分享在知识图谱的构建和应用这个问题中,真正能够有效解决问题的一些思路、策略和方法,也就是我题目中“In Practice”的核心。
知识图谱是什么?知识图谱为什么重要?今天因为时间有限,这个问题就不细展开了。我认为知识图谱是一个大规模的应用,实际上是知识工程在大数据时代再次复现的产物,这就是我对知识图谱的定位。知识图谱能解决什么问题?很多,比如,知识图谱可以让机器实现语言认知、人工智能、与数据驱动一道成为另外一种解决问题的范式,比如应用在搜索、决策、问答、支持等等,具体内容可以在这本新书中《知识图谱概念与技术》看到。
一、知识图谱作为大数据知识工程的典型代表,以自动化知识获取为其根本特征
今天想传达的第一个观点是,知识图谱实际是一个大数据知识工程的典型产物,是以自动化知识获取为其根本特征。知识图谱既不是NLP也不是语义网,作为这一产物有其独特的价值,即自动化知识获取。为什么这么说?我们可以想一下传统方法是怎么做知识工程的?是依靠专家,专家描述这个事件,把本体定义出来,专家来书写知识,这是一种完全手工的做法。如果说今天做知识图谱的你还在走传统知识工程的老路的话,那你做的就不是我们这个大数据时代的知识图谱,你所做的图谱本质也就不是一个知识图谱,它仍是一个传统的小规模的网络。知识图谱之所以是知识图谱,其根本的特征就是以自动化知识获取为它的根本特征。
知识图谱脱胎于符号主义。符号主义的概念中“智能”的本质就是符号的操作和运算,这是图灵奖以及诺贝尔获得者Newell和Simon的观点,这个观念又被叫做知识+推理。传统的知识工程应用很多都是有限制的,大部分都在规则明确、边界清晰、应用封闭的场景中取得了巨大成功,如石油、医疗、化工等领域。这些领域看起来是垂直封闭的,但实际上绝大部分都不是真正封闭的,在金融领域,与很多因素都有关系,比如跟天气有关,台风一来农作物产量自然下降,相应的公司股票就要下跌,这些都决定了很多领域都不是绝对封闭的。
传统知识工程为什么有这样苛刻的条件呢?因为它是极依赖人的一种做法,称之为典型的自上而下的做法,后来看到很多人也在呼应这种说法。何为自上而下?就是依赖专家,首先依赖专家制作知识表,还需要知识工程师把专家的知识变成计算机处理的知识,还需要人的反馈。这样很重度的人工参与,会导致知识的获取和知识的应用都非常困难。
我个人有一个观点:工业智能化能否成功决定了认知智能是否成功。所以,传统知识工程到了互联网时代就不再适应整个互联网应用的需要,互联网应用的特点,以谷歌搜索这样的互联网应用为例,它的基本特点是大规模