对知识图谱有兴趣的读者可以关注我的知乎专栏,主要介绍知识图谱的相关概念、技术,也包含一些具体实践。
今天和大家分享一下阿里2017云栖大会知识图谱专场的内容,一共有六场报告。
- 知识图谱在阿里的发展。
- 清华大学李涓子老师从知识工程的角度讲解机器智能。
- 新加坡资讯通信研究院的苏俭老师分享了他们在在自然语言处理方面的工作。
- 浙江大学陈华均老师介绍了中文知识图谱概况。
- 狗尾草CTO王昊奋结合他们的产品——琥珀,介绍了知识图谱在聊天机器人上的应用。
- 东南大学漆桂林老师介绍了知识图谱推理技术的进展及应用。
网上有整个报告的视频,接近四个小时。我在下面列出了每个报告的提纲或者部分内容,读者可以观看自己感兴趣的部分或者完整视频。
一、阿里知识图谱现状
在阿里,知识图谱有两个重量级应用:淘宝的商品知识图谱和神马搜索的通用知识图谱。下图是各自的发展历程:
第一部分:如何建设商品知识图谱
淘宝商品知识图谱的大致框架、建设步骤、核心技术和实际中的应用:
- 建设步骤
- Schema和工具
- 核心数据
- 智能服务
- 核心技术
- 信息提取:NER、EL、Relation Extraction
- 知识表示与推理
- 面向应用
- 数据分析与数据模型构建
- 智能问答
- 搜索
下图是商品知识图谱的数据大图:
其包含了四个核心节点:商品、产品、品牌、条码。围绕着这四个节点进行扩展,最终形成知识图谱中实体的关系结构。
读者可能不能很好地区分图中产品和商品的概念,主讲人给出了解释:产品是由阿里进行统一规范,商品是产品的次级概念,由商家在这个基础上扩充其定义。比如iphoneX是一个产品,商家A卖的iphoneX则定义为商品iphoneX-A,商家B卖的iphoneX则定义为商品iphoneX-B。这种结构使系统能够对商品进行更好地分析(比如统计销量)。
存储
商品图谱数据在百亿级,图数据库存储开销很大。为了保证毫秒级响应和成本控制的考量,阿里的研究团队采用了分级存储的架构:
分级存储:
- 在线图数据库提供在线服务,毫秒级查询,
- 在线关系数据库,解决在图数据库中跨多个本体,长路径的查询响应慢的问题。
- 搜索引擎,支持模糊匹配,节点倒排索引。
- 缓存,数据模型(算法包)和数据分析。
- 离线关系数据库,存储全量数据。
智能识别引擎
对用户查询进行自然语言处理,得到关键词