一、知识图谱生命周期
1 知识建模: 也叫本体构建,建模领域知识结构;
2 知识获取与验证: 获取领域内的事实知识,估计知识可信度;
3 知识融合: 也加知识集成,将碎片知识组装成知识网络;
4 知识存储与查询: 采用何种方式对知识图谱进行存储、查询;
5 知识推理: 发现已有知识中蕴含的隐含知识。
二、知识建模
1 采用什么样的方式表达知识,核心是构建一个本体(对数据的定义进行描述)对目标知识进行描述;
2 构建本体需要:
定义出知识类别体系;每个类别下所属的体系;某类实体所具有的属性以及实体之间的语义关系;定义这个本体上的一些推理规则。
3 建模方式: 作为语义网(是万维网的扩展和变革,基于知识本体,对web数据内容进行了规范化的语义标注和关联,从而支持高效的机器信息共享和智能应用;)的应用,知识图谱的知识建模采用语义网的知识建模方式,利用“资源描述框架RDF”进行描述;
4 RDF基本数据模型包括三个对象类型:
资源: 例如互联网上的实体、事件等;
谓词(predicate): 描述资源本身的特征和资源之间的关系。每一个谓词可以定义元知识,如谓词头尾部数据类型;
陈述: 一条陈述包含三个部分,通常称之为RDF三元组<主体,谓词,宾语>,主体是被描述的资源,谓词表示主体的属性,宾语是属性值;
三、知识获取
1 输入:领域知识本体;海量数据: 文本、垂直站点、百科;
2 输出:实例知识,实体集合,实体关系/属性;
3 主要技术: 信息抽取,文本挖掘;
四、 知识融合
1 输入: 抽取出来的知识;知识本体;现有知识库;
2 输出: 统一知识库;知识置信度;
3 关键技术: Ontology Matching; Entity Linking.
对不同来源、不同语言或不同结构的知识进行融合,从而对于已有知识图谱进行补充、更新和去重。
例如: YAGO: 对专家构建的高质量语言知识图谱wordNet和网民协同构建的大规模实体知识图谱Wikipedia进行融合;
BabelNet: 融合不同语言的知识图谱,实现跨语言的知识关联和共享;
4 知识融合分类: 本体融合,实例融合;
竖直方向融合,水平方向融合。
五、 知识存储与查询
1 输入: 大规模知识图谱
2 输出: 知识库存储结构,查询服务;
3 主要技术: 知识表示,知识查询语言,存储/检索引擎。
4 RDF图模型(学术界),三元组,较好的代数基础,便于推理,例如Google开放的Freebase知识图谱;
RDF图查询语言:SPARQL
5 属性图模型(工业界),五元组
属性图查询语言:Cypher
六、知识推理
1 任务: 采用推理手段发现现有知识中的隐含知识;
2 输入: 大规模数据库;
3 输出: 隐含知识;
4 主要技术: 基于逻辑规则的推理;基于表示学习的推理;
5 知识推理: 不同计算手段
符号推理:实体和关系符号直接进行推理
学习(归纳)并应用推理规则(演绎)
数值推理: 分布式知识表示
将符号化的实体和关系在低维连续向量空间进行表示,在简化计算的同时最大程度保留原始的图结构。
七、知识应用
1 语义搜索、关系搜索、问答、推荐、金融证券(企业风险评估、反欺诈)、生物医疗(中文医学知识图谱CMeKG,北大计算语言所)、农业、电商。
参考:国科大-知识图谱课件