文章目录
本篇笔记涉及PPT图片、项目简介资源均来自B站公开视频:刘焕勇知识图谱第一讲:《领域知识与事件图谱的建设挑战与落地应用探索》如有兴趣,可自行了解
1 概要
知识图谱( Knowledge Graph)
用以描述现实世界中的实体或概念及其相互关系,基本组成单位是[实体-关系-实体]三元组(triplet),,实体之间通过关系相互联结,构成网状结构。由谷歌2012年正式提出,旨在实现更智能的搜索引擎,并且于2013年以后开始在学术界和业界普及。目前,随着智能信息服务应用的不断发展,知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐、情报分析、反欺诈等领域。
2 知识图谱的前身
了解即可
语义网的困境:
1 、体系庞杂、结构太重。
2、前期成本高、应用周期长。
3、在上而下、难响应。
4、太理想化、限制太多、现实难满足。
3 知识图谱展示
在图形化数据库Neo4j构建出来的知识图谱。
4 知识图谱的分类
知识图谱分为:实体知识图谱和事件知识图谱
实体知识图谱:实体-关系-实体-属性
事件知识图谱:事件-事件-实体-事件-属性,比如某明星塌方------代言的某产品取消其代言------产品销量下降----
5 知识图谱构建流程
模式设计——>配置数据源——>知识抽取——>质量控制——>知识融合——>知识推理——>知识图谱
5.1 知识本体
本体是告诉计算机人类是如何认识和理解世界万物的一种形式化描述方式,知识图谱需要一个本体来形似化描述和界定它所描述的知识和知识的范围。
1、收集领域本体术语
比如在做药品推荐的时候,定义的药品和疾病。
2、定义本体概念层级
实体和概念的区分
3、定义本体属性关联
针对概念的属性类型、概念属性之间的推理关系、关系与关系之间的互逆关系。药品的属性:禁忌、用量等。
4、定义本体约束条件
定义概念实例和属性值的限制条件,包括属性的取值类型、取值范围、缺省值等。
性别这个属性值,需要设定“男”或“女”,对于人的寿命取值范围一般小于200岁,2月份不会超过29天等。
5.2 知识抽取
为什么要做知识抽取?是因为我们的数据来源,也就是知识来源。分为三种情况,一种是结构化知识、半结构化知识、非结构化知识。
非结构化知识抽取例子:
结构化数据抽取展示:
结构化数据映射就比较简单,只需通过编写代码进行映射,或者利用现有的工具做一个转换和映射。
比如华为云的知识图谱提供了这样的抽取方式:
最后展示一下,非结构化知识的抽取,都以有非常成熟的模型框架,如下:
5.3 知识表示学习:
总结:在工业上的应用目前落不了地,应用实际中准确率太低,大约在0.6-0.7之间,所以只能应用到对于准确率不高的场景,比如推荐。但目前也仍有在做研究去提升准确率。
5.4 实体融合(链接)
5.5 知识推理技术
推理虽然叫推理,但其实并未用到预测或者说是演算,通俗来讲是根据属性或者实体查找其连接关系,做补全。做的大多是路径搜索。
常见的推理任务:
实体属性补全、实体关系补全、关系属性推理、错误知识判定
对于2)基于路径搜索的推理,在Neo4J里封装了许多路径搜索算法,我们只需简单的调用即可返回我们所需要的成功。
6 知识图谱的应用
搜索:
可视化交互
推荐:
比较成熟的医疗领域的知识问答:
7 总结
1 知识图谱对知识的抽象下的技术不成熟
完全依靠(头实体、关系、尾实体)这样的命题,尽管能表示大部分简单事件或实体属性,对于复杂知识却束手无策。
知识图谱对实体太过于抽象带来了自然语言处理许多麻烦,得到准确的知识图谱数据,并非易事。
知识图谱这种三元组表示方法丢失了大量的上下文信息,这也给实体链接、实体对齐等任务和应用上带来一定的困难。
2、知识图谱的可解释争论
“可解释”本身就是存在主观性的,如果以“眼见为实”的观点来论述,那么知识图谱确实可以站得住脚。
3、知识图谱本体的主观性与数据贪婪性
知识图谱要求对领域内的数据进行抽象建模,构造一个标准的知识本体要有专业知识,自动生成难度大
动态的schema的问题,schema的版本都会一直变化
4、知识图谱对数据的贪婪性
最难的并不是基于知识图谱的计算,而是知识图谱数据本身的构造上,例如,在金融领域,最难的不是连通子图的
计算,也不是上下穿透的图分析,而是找到并清洗出一份合格的股权数据。
不论是关系抽取还是实体识别等,很多时候都会面临低资源问题。
未来方向:
刘焕勇老师视频分享链接:刘焕勇知识图谱第一讲:《领域知识与事件图谱的建设挑战与落地应用探索》
项目代码:Github项目链接:问答系统,医疗、法律领域