知识图谱

面对垂域搜索,利用垂域的领域知识,提升搜索准确度
差异化技术:智能分词,知识图谱、查询理解、语义匹配,排序学习,点击反馈,强化学习的排序决策。

场景:知识库搜索(weknow,华为官网),华为快服务分发,Bot技能搜索,全局搜索,华为云搜索服务。

核心技术点:
智能分词:
支持多粒度分词
支持同义词扩展
支持settings自定义分词及同义词设置 词库管理:词库管理功能中,支持按索引级别设置词典,索引之间可以共享词典,也可以独立设置。词典文件支持热更新。请尽量在静置状态下(无文档导入、搜索操作)下进行热更新操作,否则可能导致部分文档分词结果不一致或搜索结果不准确问题。
查询拓展:
基于知识图谱的查询拓展
基于相关词,已有词典,wordnet的查询拓展
支持查询改写模板可配置
基于向量的匹配:
支撑语义匹配,多模态数据,如音乐,图片,视频的快速匹配。
反馈优化
点击反馈
排序学习
基于强化学习的排序
逻辑编排:
实现不同业务逻辑的独立
可插拔,易拓展

查询改写:
可以通过模板直接干预排序过程
可配置

落地场景及成果:
华为公有云搜索服务
云搜索服务构建:
基于Elasticsearch的分布式搜索服务从无到有的构建
Kibana
弹性扩缩容
智能化:
智能分词
多词库服务
越搜越准服务

终端知识库搜索系统 – WeKnow (华为官网)
搜索服务:整个搜索系统从无到有的构建
国内上线31个代表处和545个门店
准确率:74% -> 92%
点击率:38% -> 60%

全局搜索-华为视频搜索
与大数据平台部门联合打造
泊松主要参与:
查询纠错
搜索粗排、搜索精排,核心词抽取方案
点击反馈
点击率:
25%->54~60%
HAG-华为快服务分发
与智慧工程5部(原消费者云服务部)共同打造
搜索服务:
数据同步、索引服务、精准搜索、综合排序、安全加固
已完成7个迭代开发过程
2018年10月随mate20发布上线
BOT-小艺对话技能搜索
搜索服务:
数据导入、索引服务、技能的快速、精准匹配、综合排序
已完成10+迭代开发过程
运行态已上线, 开发态2018年10月上线

多关系图一般包含多种类型的节点和多种类型的边。 在知识图谱里,我们通常用“实体(Entity)”来表达图里的节点、用“关系(Relation)”来表达图里的“边”。
知识图谱应用的前提是已经构建好了知识图谱,也可以把它认为是一个知识库。这也是为什么它可以用来回答一些搜索相关问题的原因,比如在Google搜索引擎里输入“Who is the wife of Bill Gates?”,我们直接可以得到答案-“Melinda Gates”。这是因为我们在系统层面上已经创建好了一个包含“Bill Gates”和“Melinda Gates”的实体以及他俩之间关系的知识库。所以,当我们执行搜索的时候,就可以通过关键词提取(“Bill Gates”, “Melinda Gates”, “wife”)以及知识库上的匹配可以直接获得最终的答案。这种搜索方式跟传统的搜索引擎是不一样的,一个传统的搜索引擎它返回的是网页、而不是最终的答案,所以就多了一层用户自己筛选并过滤信息的过程。

在现实世界中,实体和关系也会拥有各自的属性,比如人可以有“姓名”和“年龄”。当一个知识图谱拥有属性时,我们可以用属性图(Property Graph)来表示。
除了属性图,知识图谱也可以用RDF来表示,它是由很多的三元组(Triples)来组成。RDF在设计上的主要特点是易于发布和分享数据,但不支持实体或关系拥有属性,如果非要加上属性,则在设计上需要做一些修改。目前来看,RDF主要还是用于学术的场景,在工业界我们更多的还是采用图数据库(比如用来存储属性图)的方式。

知识抽取:

知识图谱的构建是后续应用的基础,而且构建的前提是需要把数据从不同的数据源中抽取出来。对于垂直领域的知识图谱来说,它们的数据源主要来自两种渠道:一种是业务本身的数据,这部分数据通常包含在公司内的数据库表并以结构化的方式存储;另一种是网络上公开、抓取的数据,这些数据通常是以网页的形式存在所以是非结构化的数据。
前者一般只需要简单预处理即可以作为后续AI系统的输入,但后者一般需要借助于自然语言处理等技术来提取出结构化信息。
信息抽取的难点在于处理非结构化数据。左边是一段非结构化的英文文本,右边是从这些文本中抽取出来的实体和关系。在构建类似的图谱过程当中,主要涉及以下几个方面的自然语言处理技术:
a. 实体命名识别(Name Entity Recognition) 从文本里提取出实体并对每个实体做分类/打标签
b. 关系抽取(Relation Extraction) is; in; near; close to; next to
c. 实体统一(Entity Resolution) 有些实体写法上不一样,但其实是指向同一个实体:“NYC”和“New York”;实体统一不仅可以减少实体的种类,也可以降低图谱的稀疏性
d. 指代消解(Coreference Resolution)文本中出现的“it”, “he”, “she”这些词到底指向哪个实体,比如在本文里两个被标记出来的“it”都指向“hotel”这个实体。

知识图谱的存储:

一种是基于RDF的存储;另一种是基于图数据库的存储。RDF一个重要的设计原则是数据的易发布以及共享,图数据库则把重点放在了高效的图查询和搜索上。其次,RDF以三元组的方式来存储数据而且不包含属性信息,但图数据库一般以属性图为基本的表示形式,所以实体和关系可以包含属性,这就意味着更容易表达现实的业务场景。

一个完整的知识图谱的构建包含以下几个步骤:

  1. 定义具体的业务问题
    2.数据的收集 & 预处理: 针对于数据源,我们需要考虑以下几点:1. 我们已经有哪些数据? 2. 虽然现在没有,但有可能拿到哪些数据? 3. 其中哪部分数据可以用来降低风险? 4. 哪部分数据可以用来构建知识图谱? 公司名的对齐
    3.知识图谱的设计:1. 需要哪些实体、关系和属性? 2. 哪些属性可以做为实体,哪些实体可以作为属性? 3. 哪些信息不需要放在知识图谱中?
  2. 把数据存入知识图谱:图数据库可以作为首选
  3. 上层应用的开发,以及系统的评估:从算法的角度来讲,有两种不同的场景:一种是基于规则的;另一种是基于概率的。
    基于规则的方法论:不一致性验证、基于规则的特征提取、基于模式的判断。
    基于概率的方法:比如社区挖掘、标签传播、聚类等技术都属于这个范畴
    基于动态网络的分析:以上所有的分析都是基于静态的关系图谱。所谓的静态关系图谱,意味着我们不考虑图谱结构本身随时间的变化,只是聚焦在当前知识图谱结构上。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值