知识图谱

幸运小猴子

于 2020-08-24 17:17:46 发布

阅读量1.1k

点赞数

分类专栏：搜索引擎

本文链接：https://blog.csdn.net/sandrew0916/article/details/108203512

版权

搜索引擎专栏收录该内容

6 篇文章 0 订阅

订阅专栏

面对垂域搜索，利用垂域的领域知识，提升搜索准确度
差异化技术：智能分词，知识图谱、查询理解、语义匹配，排序学习，点击反馈,强化学习的排序决策。

场景：知识库搜索（weknow，华为官网），华为快服务分发，Bot技能搜索，全局搜索，华为云搜索服务。

核心技术点：
智能分词：
支持多粒度分词
支持同义词扩展
支持settings自定义分词及同义词设置词库管理：词库管理功能中，支持按索引级别设置词典，索引之间可以共享词典，也可以独立设置。词典文件支持热更新。请尽量在静置状态下（无文档导入、搜索操作）下进行热更新操作，否则可能导致部分文档分词结果不一致或搜索结果不准确问题。
查询拓展：
基于知识图谱的查询拓展
基于相关词，已有词典，wordnet的查询拓展
支持查询改写模板可配置
基于向量的匹配：
支撑语义匹配，多模态数据，如音乐，图片，视频的快速匹配。
反馈优化：
点击反馈
排序学习
基于强化学习的排序
逻辑编排：
实现不同业务逻辑的独立
可插拔，易拓展

查询改写：
可以通过模板直接干预排序过程
可配置

落地场景及成果：
华为公有云搜索服务
云搜索服务构建：
基于Elasticsearch的分布式搜索服务从无到有的构建
Kibana
弹性扩缩容
智能化：
智能分词
多词库服务
越搜越准服务

终端知识库搜索系统 – WeKnow (华为官网)
搜索服务：整个搜索系统从无到有的构建
国内上线31个代表处和545个门店
准确率：74% -> 92%
点击率：38% -> 60%

全局搜索-华为视频搜索
与大数据平台部门联合打造
泊松主要参与：
查询纠错
搜索粗排、搜索精排，核心词抽取方案
点击反馈
点击率：
25%->54~60%
HAG-华为快服务分发
与智慧工程5部（原消费者云服务部）共同打造
搜索服务：
数据同步、索引服务、精准搜索、综合排序、安全加固
已完成7个迭代开发过程
2018年10月随mate20发布上线
BOT-小艺对话技能搜索
搜索服务：
数据导入、索引服务、技能的快速、精准匹配、综合排序
已完成10+迭代开发过程
运行态已上线，开发态2018年10月上线

多关系图一般包含多种类型的节点和多种类型的边。在知识图谱里，我们通常用“实体（Entity）”来表达图里的节点、用“关系（Relation）”来表达图里的“边”。
知识图谱应用的前提是已经构建好了知识图谱，也可以把它认为是一个知识库。这也是为什么它可以用来回答一些搜索相关问题的原因，比如在Google搜索引擎里输入“Who is the wife of Bill Gates?”，我们直接可以得到答案-“Melinda Gates”。这是因为我们在系统层面上已经创建好了一个包含“Bill Gates”和“Melinda Gates”的实体以及他俩之间关系的知识库。所以，当我们执行搜索的时候，就可以通过关键词提取（“Bill Gates”, “Melinda Gates”, “wife”）以及知识库上的匹配可以直接获得最终的答案。这种搜索方式跟传统的搜索引擎是不一样的，一个传统的搜索引擎它返回的是网页、而不是最终的答案，所以就多了一层用户自己筛选并过滤信息的过程。

在现实世界中，实体和关系也会拥有各自的属性，比如人可以有“姓名”和“年龄”。当一个知识图谱拥有属性时，我们可以用属性图（Property Graph）来表示。
除了属性图，知识图谱也可以用RDF来表示，它是由很多的三元组（Triples）来组成。RDF在设计上的主要特点是易于发布和分享数据，但不支持实体或关系拥有属性，如果非要加上属性，则在设计上需要做一些修改。目前来看，RDF主要还是用于学术的场景，在工业界我们更多的还是采用图数据库（比如用来存储属性图）的方式。

知识抽取：

知识图谱的构建是后续应用的基础，而且构建的前提是需要把数据从不同的数据源中抽取出来。对于垂直领域的知识图谱来说，它们的数据源主要来自两种渠道：一种是业务本身的数据，这部分数据通常包含在公司内的数据库表并以结构化的方式存储；另一种是网络上公开、抓取的数据，这些数据通常是以网页的形式存在所以是非结构化的数据。
前者一般只需要简单预处理即可以作为后续AI系统的输入，但后者一般需要借助于自然语言处理等技术来提取出结构化信息。
信息抽取的难点在于处理非结构化数据。左边是一段非结构化的英文文本，右边是从这些文本中抽取出来的实体和关系。在构建类似的图谱过程当中，主要涉及以下几个方面的自然语言处理技术：
a. 实体命名识别（Name Entity Recognition）从文本里提取出实体并对每个实体做分类/打标签
b. 关系抽取（Relation Extraction） is; in; near; close to; next to
c. 实体统一（Entity Resolution）有些实体写法上不一样，但其实是指向同一个实体：“NYC”和“New York”；实体统一不仅可以减少实体的种类，也可以降低图谱的稀疏性
d. 指代消解（Coreference Resolution）文本中出现的“it”, “he”, “she”这些词到底指向哪个实体，比如在本文里两个被标记出来的“it”都指向“hotel”这个实体。

知识图谱的存储：

一种是基于RDF的存储；另一种是基于图数据库的存储。RDF一个重要的设计原则是数据的易发布以及共享，图数据库则把重点放在了高效的图查询和搜索上。其次，RDF以三元组的方式来存储数据而且不包含属性信息，但图数据库一般以属性图为基本的表示形式，所以实体和关系可以包含属性，这就意味着更容易表达现实的业务场景。

一个完整的知识图谱的构建包含以下几个步骤：

定义具体的业务问题
2.数据的收集 & 预处理：针对于数据源，我们需要考虑以下几点：1. 我们已经有哪些数据？ 2. 虽然现在没有，但有可能拿到哪些数据？ 3. 其中哪部分数据可以用来降低风险？ 4. 哪部分数据可以用来构建知识图谱？公司名的对齐
3.知识图谱的设计：1. 需要哪些实体、关系和属性？ 2. 哪些属性可以做为实体，哪些实体可以作为属性？ 3. 哪些信息不需要放在知识图谱中？
把数据存入知识图谱：图数据库可以作为首选
上层应用的开发，以及系统的评估：从算法的角度来讲，有两种不同的场景：一种是基于规则的；另一种是基于概率的。
基于规则的方法论：不一致性验证、基于规则的特征提取、基于模式的判断。
基于概率的方法：比如社区挖掘、标签传播、聚类等技术都属于这个范畴
基于动态网络的分析：以上所有的分析都是基于静态的关系图谱。所谓的静态关系图谱，意味着我们不考虑图谱结构本身随时间的变化，只是聚焦在当前知识图谱结构上。