百度宋勋超:百度大规模知识图谱构建及智能应用

本文介绍了百度大规模知识图谱的构建历程和智能应用,涵盖了从技术到应用的多个阶段,包括搜索、智能对话和信息流推荐等场景。百度知识图谱已发展到亿级实体和千亿级属性关系,成为中文领域最大的知识图谱。报告还探讨了最新进展,如开放域知识图谱、复杂知识图谱和行业知识图谱的构建技术。
摘要由CSDN通过智能技术生成

不到现场,照样看最干货的学术报告!

嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。


人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会,百度为支持单位,读芯术、PaperWeekly为合作自媒体。“AI未来说·青年学术论坛”第十一期“信息检索与知识图谱”专场已于2019年11月24日下午在中科院举行。百度宋勋超为大家带来报告《百度大规模知识图谱构建及智能应用》。

宋勋超全场报告视频

宋勋超,现任百度知识图谱部主任研发架构师。毕业于浙江大学,参与了百度知识图谱设计及构建的整体流程,具有丰富的知识图谱实践经验。目前主要负责知识图谱应用、语义理解、图谱架构等技术,同时负责百度行业知识图谱相关工作。研发成果在百度搜索、信息流、DuerOS,行业图谱产品等多项产品中广泛应用。

报告内容:知识图谱当前已经成为工业界开展下一代人工智能应用的重要基础,应用前景广阔。知识图谱作为一种数据形态、一种工具、一种方法论,为人工智能、大数据等应用提供基础支撑作用,在搜索引擎、智能推荐、智能对话等业务场景,知识图谱技术更是大展拳脚,大幅提高了业务效果。宋勋超老师报告的主题为百度大规模知识图谱构建及智能应用,将从大规模工业实践的角度,分享百度知识图谱部门过去几年所做一些工作,介绍百度实际工业生产中是如何应用知识图谱技术的。报告主要分为两部分,首先是从技术以及应用两方面对百度知识图谱进行概述,第二,介绍百度知识图谱技术的最新进展。


百度大规模知识图谱构建及智能应用

首先,宋勋超老师从百度知识图谱部门的发展历程出发向大家作以简要介绍。百度知识图谱部源于搜索、服务于搜索,同时多年来随着自身技术不断迭代和进步,将知识图谱技术应用到了搜索以外的场景。

百度知识图谱发展历程主要分为四个阶段。第一阶段是2013年以前,称为为Pre—KG阶段,用定制化的方式生产结构化数据,因为知识图谱本身是高度结构化的知识语义网络体系,所以在这个阶段的结构化数据,并不是真正意义上知识图谱,搜索结果以竖向联动方式将满足用户搜索的各种维度信息综合起来,形成创新的知识满足产品样式。

第二阶段是2014—2015年,称之为领域知识图谱,指知识图谱的架构、策略、算法的目标是面向于垂类或者细分领域,例如金融是垂类,金融下面保险、银行等是细分垂类。落地场景有搜索阿拉丁、推荐、智能摘要、度秘初期垂类检索。

第三阶段是2016—2017年,工作重点是通用知识图谱,这个阶段关注统一融合知识图谱的构建与应用技术,以及深化建设多个特色的领域知识图谱,例如百度汉语知识图谱,将传统国学,汉语教育相关的海量数据转化构建为知识图谱。应用落地主要是搜索智能问答,这是下一代搜索引擎所应具备的核心能力,也是下一代搜索引擎核心要大力发展的一个方向,此外还有Feed信息流推荐场景的广泛落地。

第四阶段是近两年,称之为行业知识图谱+多元异构图谱发展阶段,我们关注多元、异构图谱,以及多媒体知识,事件、时序等复杂知识,行业知识如何进行图谱化构建。应用落地上除了规模化搜索首位精准满足、Feed内容理解及智能内容建设,还输出到了百度外的众多行业,例如客服、法律、医疗、金融等。

截至到目前,百度内部积累知识图谱规模已经达到亿级实体和千亿级属性关系,是中文领域最大的知识图谱,知识图谱服务规模从2014年到现在增长了490倍。

接下来宋勋超老师简单介绍了四个发展历程里,百度核心产品线业务的赋能情况。首先是智能搜索,目前百度搜索结果里,首位直接满足用户搜索请求的比例达到57%。这背后依赖的是百度人工智能技术,其中比例非常大的一部分是百度知识图谱技术的赋能,知识图谱每天能够满足数亿次检索请求,有如下几种类型:一是各种形态的知识图谱问答卡片,二是将实体各个维度信息进行聚合展示的实体知识大卡,三是依托于知识图谱本身的语义关系,在用户搜索行为发生同时,给予多种维度的关联知识推荐。

第二是智能对话。从去年开始,百度智能音箱跃居销售量第一的位置。知识图谱为智能对话系统DuerOS提供全方位信息满足服务。

第三是Feed信息流。百度是双擎驱动移动生态布局,信息流推荐场景我们基于千亿级的通用知识图谱,构建了大规模用户关注点和兴趣点的图谱,通过图谱挖掘文章背后所蕴含知识关联和内容关联,增强了用户兴趣推荐模型的可解释性和知识关联性,分发效率和多样性取得了非常大的提升。

过去六年以来百度知识图谱沉淀并积累了包括从知识获取到整合、补全、扩展、知识图谱认知、知识图谱应用在内的全栈技术,以及知识图谱相关的架构平台和知识图谱模型。

接下来宋勋超老师介绍了百度知识图谱研究的最新进展,分为两部分。第一部分是知识图谱构建,主要分开放域海量知识图谱、复杂知识图谱、多媒体知识图谱、行业知识图谱四部分。

从大规模海量互联网信息构建千亿级别的知识图谱,最核心技术点有三个:一是无标签大数据开放知识挖掘技术,二是数据驱动的本体自动构建,三是基于多元异构数据的融合。对于开放知识挖掘,百度把知识图谱运用到实际搜索线上,对于知识图谱准确性要求需要达到98%以上的准确率。这里开放知识挖掘所依赖的最主要的技术是基于远监督从大规模语料中获取高质量模板,这里我们提出一种基于注意力正则化的远监督降噪的方法来降低训练数据中的噪声。二是自底向上结合自顶向下的开放本体构建。三是基于空间变换的知识融合方法,在海量大规模异构图谱之间建立广泛关联,形成一个整体。

针对事件知识图谱,从互联网数据里敏捷捕捉到事件发生,抽取事件论元、并建立时间、空间维度的关系从而形成事件图谱网络。事件图谱非常适合两个应用场景,第一是百度搜索的新闻事件脉络,事件脉络维度帮助用户了解事件各个时间轴的信息。第二是百度地图POI的信息变更。

其次就是行业智能,

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值