文章目录
1 文章介绍
知识图谱在小米的应用与探索,作者为小米公司的彭力(小米公司),发表在开放知识图谱公众号, 日期为 2020.11.18。作者彭力,ID小米AI Lab知识图谱高级软件工程师,参与IEEE p2807知识图谱的标准制定;在小米主要负责知识图谱的构建和探索知识图谱在公司业务场景下落地。已推动知识图谱在小爱同学、小米商城、游戏商城、虚拟助手、智能问答等业务开花结果。
相关阅读:《知识图谱标准化白皮书(2019版)》主编单位:中国电子技术标准化研究院,全书共200页。下载地址:https://pan.baidu.com/s/1FmDzr9K40aqPPhlljkvWqw 提取码:gi7t
小米知识图谱于2017年创立,已支持公司了每天亿级的访问,已赋能小爱同学,小米有品、智能问答、用户画像、虚拟助手、智能客服等互联网产品。通过引入知识图谱,这些产品在内容理解、用户理解、实体推荐等方面都有了显著的效果提升。本文的主要内容包括:
- 小米知识图谱介绍:包括小米的商业模式、小米人工智能部、知识图谱在人工智能部的定位、小米知识图谱的发展历程、以及小米知识图谱的落地场景。
- 小米知识图谱关键技术:小米知识图谱在成长过程中的技术积累。
- 小米行业知识图谱探索:结合业务,跟大家分享下小米在行业图谱上的探索。
2 应用场景:智能问答
小米知识图谱的最重要的应用场景就是实时的人机智能问答,主要包括两种模式:一般问答模式和基于规则推理模式。在基于规则的推理中,同时还有多条件推理,多跳关系推理,还支持像求最大值,最小值这种基础推理算子。可以根据实际需求、应用场景和应用情况去选择,从而达到最好的问答效果。
3 实现流程与原理
小米对话包括以下四个模块,其原理图如下所示:
主要分为以下几步:
3.1 语音识别模块
输入内容:语音信息
输出内容:转换出的文本
主要作用:获得说话者的文字并进行初步清洗
关键技术:语音识别技术
3.2 意图识别模块
输入内容:文本
输出内容:基于知识图谱表示的用户的意图
主要作用:从文本中得到用户的意思
关键技术:分词、词法分析、意图表示和知识图谱匹配
实现过程:
这步主要分为以下三个过程
第1步:利用分词技术将输入的文本打散以取得核心词汇,同时结合词法分析获得词汇的属性;
第2步:对词汇进行语法分析,通过这些内容得到关键词汇;
第3步:利用知识图谱对关键词进行意图识别
3.3 实体查询模块
输入内容:基于知识图谱表示的用户的意图
输出内容:数据库检查到的一些查询信息
主要作用:在理解了用户的意图以后,通过合适的查询内容,在数据库中检索找到相应的信息
关键技术:数据库查询技术
3.4 实体推荐模块
输入内容:数据库检查到的一些查询信息
输出内容:更加丰富的数据信息
主要作用:结合知识图谱和推荐算法,对查询到的信息进行扩展,并最终返回给用户
关键技术:知识图谱搜索、实体嵌入和相关性算法。
4 三大关键技术
主要包括:
- 特征提取:在机器学习、模式识别和图像处理中,特征提取从初始的一组测量数据开始,并建立旨在提供信息和非冗余的派生值(特征),从而促进后续的学习和泛化步骤,并且在某些情况下带来更好的可解释性。特征提取与降维有关,同时其特征的好坏对泛化能力有至关重要的影响。
- 实体模板:对实体进行结构化定义,可以通过利用条件随机场等技术进行搜索。
4.1 实体链接:根据特征与实体模板进行关联。
实体链接 ( Entity Linking ),也叫实体链指,该任务要求我们将非结构化数据中的表示实体的词语(即所谓mention,对某个实体的指称项)识别出来,并将从知识库 (领域词库,知识图谱等) 中找到mention所表示的那一个实体所以实体链接的任务定义:就是给定文本mention,判定指代知识图谱中的实体首先第一个是实体链接 (Entity Linking)。比如说刘德华的天下无贼主题曲那一天是谁唱的,实体链接需要把刘德华,天下无贼,那一天三个mention联接到知识图谱的实体上,以方便应用到如主题分析,语义的信息检索等更深度的应用场景中。PS.小米知识图谱通过实体链接技术参加了2020CCKS(全国知识图谱与语义计算大赛2020),很荣幸拿到了总决赛的第一名,F1的值达到了0.8954。
4.2 知识整合
概念图谱的概挖掘目前小米图谱基本三种方式构建:本体模式层构建了分类体系、于autophrase的方法和基于序列标注的方法。这三种方法都是概念挖掘,对于实体与概念的关联,可以用实体分类的方法把模式层的与实体挂接,用实体链接的方法把开放词中的短语与体挂接。
4.3 自动化构建技术
一套完成的自动化构建技术,可以支持用户定制,自动实体化,自动实体关系等。
5 其他技术
包括BERT、CRF、中文的切词、命名实体识别、候选实体选取、实体消歧、实体排序、判空等。
参考数据
- Vul. Sample CVE-2020-8597 Detail(需番强)
- Huaun漏洞情报平台
- 实体嵌入技术