今天和大家分享一下阿里2017云栖大会知识图谱专场的内容,一共有六场报告。
- 知识图谱在阿里的发展。
- 清华大学李涓子老师从知识工程的角度讲解机器智能。
- 新加坡资讯通信研究院的苏俭老师分享了他们在在自然语言处理方面的工作。
- 浙江大学陈华均老师介绍了中文知识图谱概况。
- 狗尾草CTO王昊奋结合他们的产品——琥珀,介绍了知识图谱在聊天机器人上的应用。
- 东南大学漆桂林老师介绍了知识图谱推理技术的进展及应用。
网上有整个报告的视频,接近四个小时。我在下面列出了每个报告的提纲或者部分内容,读者可以观看自己感兴趣的部分或者完整视频。
一、阿里知识图谱现状
在阿里,知识图谱有两个重量级应用:淘宝的商品知识图谱和神马搜索的通用知识图谱。下图是各自的发展历程:
第一部分:如何建设商品知识图谱
淘宝商品知识图谱的大致框架、建设步骤、核心技术和实际中的应用:
- 建设步骤
- Schema和工具
- 核心数据
- 智能服务
- 核心技术
- 信息提取:NER、EL、Relation Extraction
- 知识表示与推理
- 面向应用
- 数据分析与数据模型构建
- 智能问答
- 搜索
下图是商品知识图谱的数据大图:
其包含了四个核心节点:商品、产品、品牌、条码。围绕着这四个节点进行扩展,最终形成知识图谱中实体的关系结构。
读者可能不能很好地区分图中产品和商品的概念,主讲人给出了解释:产品是由阿里进行统一规范,商品是产品的次级概念,由商家在这个基础上扩充其定义。比如iphoneX是一个产品,商家A卖的iphoneX则定义为商品iphoneX-A,商家B卖的iphoneX则定义为商品iphoneX-B。这种结构使系统能够对商品进行更好地分析(比如统计销量)。
存储
商品图谱数据在百亿级,图数据库存储开销很大。为了保证毫秒级响应和成本控制的考量,阿里的研究团队采用了分级存储的架构:
分级存储:
- 在线图数据库提供在线服务,毫秒级查询,
- 在线关系数据库,解决在图数据库中跨多个本体,长路径的查询响应慢的问题。
- 搜索引擎,支持模糊匹配,节点倒排索引。
- 缓存,数据模型(算法包)和数据分析。
- 离线关系数据库,存储全量数据。
智能识别引擎
对用户查询进行自然语言处理,得到关键词,查询知识图谱,返回用户需要的商品。
推理引擎
- 一级翻译器:将自然语言转换成逻辑语言(规则/神经网络模型)
- 推理单元:基于商品知识图谱逻辑展开
- 二级翻译器:逻辑语言转为数据库语言
应用:导购
- 卖点标注
- 知识图谱有商品条码,包含配料表信息。保证商家上传的配料表正确。
- 推理引擎判断是否符合国家标准,匹配对应的标签。
- 热点挖掘
- 从公共媒体挖掘热点 。
- 利用推理引擎和商品知识对相关商品自动识别和标注。
- 场景构建
- 根据场景推荐相关商品(去海边玩,可以买哪些东西)。
第二部分:通用知识图谱构建和应用
移动搜索的发展路径:
神马知识图谱的特点:
构建方法:
知识图谱在通用领域的应用:
1.知识卡片
在专栏的第一篇文章中我们也提到过,知识卡片能够提升用户查询的体验。
2.精准问答
3.基于知识图谱的实体推荐
二、知识工程:机器智能的加速器
1.数据、知识与智能
为数据添加语义信息,从而得到知识;知识为智能的产生提供支持。
2.知识工程四十年
这一部分我们在之前的文章也有介绍过,知识图谱是怎么从语义网络、专家系统、语义网发展过来的。
3.大数据环境下知识工程挑战及研究内容
4.在科技大数据中的应用
李老师以清华大学学术大数据项目AMiner为例,介绍了知识图谱的具体应用场景。Aminer构建了一个学者的社交网络,提供了比较全面的搜索和数据挖掘服务。AMiner对搞学术研究的读者帮助比较大,可以方便地查到某个领域有哪些顶尖学者、或者出众的论文。有时候我们可能会碰到这种情况,想了解论文作者的具体信息,但是有些情况下,我们在搜索引擎中并不能通过作者的名字查到相关信息,尤其是中国的作者(同名和多字同音增加了搜索难度)。但是通过AMiner,也许你能够更快地找到你需要的信息。例如,一开始我并不知道苏俭老师名字的俭,我通过搜索引擎搜索su jian加上她所在的单位,最后才费力地找到她的中文名。通过AMiner,输入su jian,第一个结果就是她的条目(超过1000个结果,但是她的引用数最高)。有兴趣的读者可以自己去探索一下这个系统。
三、Semantic and sentiment analysis for KG construction
苏俭老师分享了他们在在自然语言处理方面的工作。包括命名实体识别、指代消歧、实体链接、关系抽取、事件抽取、文本分类、情感分析。
四、中文知识图谱概况
浙江大学陈华均老师介绍了:
- 知识表示的两种方式:符号表示和向量表示(对应人工智能两个流派,符号主义和连接主义)。
- 知识图谱历史渊源。
- 应用:KG辅助搜索、KG辅助问答、KG辅助语言理解、KG辅助数据分析。
- 知识图谱工程
- OpenKG社区及相关工具介绍
五、当知识图谱遇上聊天机器人:机遇与挑战
狗尾草CTO王昊奋结合他们的产品——琥珀,从四个方面做了如下报告:
1.聊天机器人简介
2.技术挑战
3.需要什么样的知识图谱
4.聊天机器人的机遇和挑战
六、知识图谱推理技术的进展及应用
漆桂林老师报告内容分为下面三块:
- 知识图谱历史回顾
- 基于本体的推理及应用
- 基于规则的推理及应用
<link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/markdown_views-ea0013b516.css">
</div>