文章目录
生命周期
1 知识建模
知识建模是建立知识图谱的数据模式,数据模式是基于选定的数据模型对数据进行“型”方面的刻画,而相应的“实例”则是对数据“值”方面的描述。先有数据模型,才能据其讨论相应数据模式,有了数据模式,就能依据该模式得到相应的实例。
常用方法
- 自顶向下:专家手工编辑形成数据模式
- 自底向上:基于行业现有的标准进行转换,或从现有的高质量行业数据源(如业务系统数据库表)中进行映射
关键技术与难点
- 多人在线协同编辑,并且事实更新
- 能够导入集成使用现有的(结构化)知识
- 支持大数据量
- 能够支撑事件、时许等复杂知识表达
- 可以与自动算法进行结合,避免全人工操作
2 知识抽取
从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱。
关键技术与难点
- 从结构化数据库中获取知识:D2R
难点:复杂表数据的处理
- 从链接数据中获取知识:图映射
难点:数据对齐
- 从半结构化(网站)数据中获取知识:使用包装器
难点: 方便的包装器定义方法,包装器自动生成、更|新与维护 - 从文本中获取知识:信息抽取
难点:结果的准确率与覆盖率
3 知识融合
包括数据模式层和数据层的融合。
数据模式层融合
- 概念合并
- 概念上下位关系合并
- 概念的属性定义合并
数据层融合
- 实体合并
- 实体属性融合
- 冲突检测与解决
关键技术与难点
- 实现不同来源,不同心态数据的融合
- 海量数据的高效融合
- 新增知识的实时融合
- 多语言的融合
4 知识存储
基本数据存储:三元组、事件信息、时态信息、使用知识图谱组织的数据
上层应用需要支持:知识推理、知识快速查询、图实时计算
关键技术与难点
- 大规模三元组的存储
- 知识图谱组织的大数据存储
- 事件与时态信息的存储
- 快速推理与图计算的支持
5 知识计算
- 图挖掘计算:基于图论的相关算法,实现对图谱的探索和挖掘
- 本体推理:使用本体推理进行新知识发现或冲突检测
- 基于规则的推理:使用规则引擎,编写相应的业务规则,通过推理辅助业务决策
关键技术与难点
- 图挖掘计算:大规模图算法的效率
- 本体推理与规则推理:大数据量下的快速推理,对于增量知识和规则的快速加载
6 知识应用
语义搜索:基于知识图谱中的知识,解决传统搜索中遇到的关键字语义多样性及语义消歧的难题;通过实体链接实现知识与文档的混合检索。
智能问答:针对用户输入的自然语言进行理解,从知识图谱中或目标数据中给出用户问题的答案。
可视化决策支持:通过提供统一的图形接口,结合可视化、推理、检索等,为用户提供信息获取的入口。
关键技术与难点
语义搜索:自然语义的表达多样性和歧义问题
智能问答:
(1)准确的语义解析。
(2)正确理解用户的真实意图。
(3)答案确定与排序。
可视化决策支持:
(1)通过可视化方式辅助用户模式快速发现
(2)高效地缩放和导航
(3)大图环境下底层算法(图挖掘算法)的效率
参考资料:王昊奋知识图谱教程