[论文研读] 2021A01 知识图谱在小米的应用与探索

1 文章介绍

知识图谱在小米的应用与探索,作者为小米公司的彭力(小米公司),发表在开放知识图谱公众号, 日期为 2020.11.18。作者彭力,ID小米AI Lab知识图谱高级软件工程师,参与IEEE p2807知识图谱的标准制定;在小米主要负责知识图谱的构建和探索知识图谱在公司业务场景下落地。已推动知识图谱在小爱同学、小米商城、游戏商城、虚拟助手、智能问答等业务开花结果。
相关阅读:《知识图谱标准化白皮书(2019版)》主编单位:中国电子技术标准化研究院,全书共200页。下载地址:https://pan.baidu.com/s/1FmDzr9K40aqPPhlljkvWqw 提取码:gi7t

小米知识图谱于2017年创立,已支持公司了每天亿级的访问,已赋能小爱同学,小米有品、智能问答、用户画像、虚拟助手、智能客服等互联网产品。通过引入知识图谱,这些产品在内容理解、用户理解、实体推荐等方面都有了显著的效果提升。本文的主要内容包括:

  • 小米知识图谱介绍:包括小米的商业模式、小米人工智能部、知识图谱在人工智能部的定位、小米知识图谱的发展历程、以及小米知识图谱的落地场景。
  • 小米知识图谱关键技术:小米知识图谱在成长过程中的技术积累。
  • 小米行业知识图谱探索:结合业务,跟大家分享下小米在行业图谱上的探索。

2 应用场景:智能问答

小米知识图谱的最重要的应用场景就是实时的人机智能问答,主要包括两种模式:一般问答模式和基于规则推理模式。在基于规则的推理中,同时还有多条件推理,多跳关系推理,还支持像求最大值,最小值这种基础推理算子。可以根据实际需求、应用场景和应用情况去选择,从而达到最好的问答效果。

3 实现流程与原理

小米对话包括以下四个模块,其原理图如下所示:

语音识别
意图识别
实体查询
实体推荐1223

主要分为以下几步:

3.1 语音识别模块

输入内容:语音信息
输出内容:转换出的文本
主要作用:获得说话者的文字并进行初步清洗
关键技术:语音识别技术

3.2 意图识别模块

输入内容:文本
输出内容:基于知识图谱表示的用户的意图
主要作用:从文本中得到用户的意思
关键技术:分词、词法分析、意图表示和知识图谱匹配
实现过程:
这步主要分为以下三个过程
第1步:利用分词技术将输入的文本打散以取得核心词汇,同时结合词法分析获得词汇的属性;
第2步:对词汇进行语法分析,通过这些内容得到关键词汇;
第3步:利用知识图谱对关键词进行意图识别

3.3 实体查询模块

输入内容:基于知识图谱表示的用户的意图
输出内容:数据库检查到的一些查询信息
主要作用:在理解了用户的意图以后,通过合适的查询内容,在数据库中检索找到相应的信息
关键技术:数据库查询技术

3.4 实体推荐模块

输入内容:数据库检查到的一些查询信息
输出内容:更加丰富的数据信息
主要作用:结合知识图谱和推荐算法,对查询到的信息进行扩展,并最终返回给用户
关键技术:知识图谱搜索、实体嵌入和相关性算法。

4 三大关键技术

主要包括:

  • 特征提取:在机器学习、模式识别和图像处理中,特征提取从初始的一组测量数据开始,并建立旨在提供信息和非冗余的派生值(特征),从而促进后续的学习和泛化步骤,并且在某些情况下带来更好的可解释性。特征提取与降维有关,同时其特征的好坏对泛化能力有至关重要的影响。
  • 实体模板:对实体进行结构化定义,可以通过利用条件随机场等技术进行搜索。

4.1 实体链接:根据特征与实体模板进行关联。

实体链接 ( Entity Linking ),也叫实体链指,该任务要求我们将非结构化数据中的表示实体的词语(即所谓mention,对某个实体的指称项)识别出来,并将从知识库 (领域词库,知识图谱等) 中找到mention所表示的那一个实体所以实体链接的任务定义:就是给定文本mention,判定指代知识图谱中的实体首先第一个是实体链接 (Entity Linking)。比如说刘德华的天下无贼主题曲那一天是谁唱的,实体链接需要把刘德华,天下无贼,那一天三个mention联接到知识图谱的实体上,以方便应用到如主题分析,语义的信息检索等更深度的应用场景中。PS.小米知识图谱通过实体链接技术参加了2020CCKS(全国知识图谱与语义计算大赛2020),很荣幸拿到了总决赛的第一名,F1的值达到了0.8954。

4.2 知识整合

概念图谱的概挖掘目前小米图谱基本三种方式构建:本体模式层构建了分类体系、于autophrase的方法和基于序列标注的方法。这三种方法都是概念挖掘,对于实体与概念的关联,可以用实体分类的方法把模式层的与实体挂接,用实体链接的方法把开放词中的短语与体挂接。

4.3 自动化构建技术

一套完成的自动化构建技术,可以支持用户定制,自动实体化,自动实体关系等。

5 其他技术

包括BERT、CRF、中文的切词、命名实体识别、候选实体选取、实体消歧、实体排序、判空等。

参考数据

### 关于知识图谱的学术论文推荐 对于希望深入了解知识图谱及其相关技术的研究者来说,以下是几篇重要且具有代表性的学术论文: #### 综述类文章 一篇最新的综述性论文涵盖了知识图谱的核心领域以及其应用前景。这篇名为《A Survey on Knowledge Graphs: Representation, Acquisition and Applications》的文章提供了对知识图谱表示学习、知识获取补全、时序知识图谱等方面的全面回顾,并指出了当前研究中的突破点和未来的探索方向[^1]。 #### 动态图谱预训练模型 随着知识图谱规模的增长和技术需求的变化,大规模动态图谱的学习成为了一个新兴的研究热点。特别是在复杂知识结构下的表示方法上,这一领域的进展将会对未来几年的知识表示研究产生深远影响。此外,在提高知识表示可解释性的基础上,该方向仍然是学界的关注重点之一[^2]。 #### 基础理论发展现状 针对具体实现层面的内容,《Collaborative knowledge base embedding for recommender systems》探讨了如何通过协同过滤机制来增强基于知识库嵌入的推荐系统效果[^4]。而另一项基础工作则围绕着传统三元组(h,r,t)构建起整个框架体系展开讨论,强调即使目前存在不完全性问题,但借助诸如TransE、ComplEx 或RotatE这样的算法可以有效缓解此类缺陷并提升整体表现水平[^3]。 以上提到的每一篇文章都从不同角度切入到知识图谱这个广阔而又充满挑战的技术范畴之内;无论是初学者还是资深研究人员都能从中找到适合自己兴趣点的部分深入探究下去。 ```python # 示例代码展示如何加载一个常见的知识图谱嵌入模型——TransE from pykeen.models import TransE model = TransE(triples_factory=triples_factory) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值