CAS-KG——知识体系构建与知识融合

说明:CAS是国科大的简称,KG是知识图谱的缩写,这个栏目之下是我整理的国科大学习到的知识图谱的相关笔记。

课程目标

  • 了解以知识图谱为代表的大数据知识工程的基本问题和方法
  • 掌握基于知识图谱的语义计算关键技术
  • 具备建立小型知识图谱并据此进行数据分析应用的能力

教学安排
详情请见博客:CAS-KG——课程安排



1. 知识体系构建

什么是知识体系

知识体系对于知识数据的描述和定义是描述知识数据的“元数据”
在这里插入图片描述

知识体系主要包含三方面内容

  • 词汇、类别、概念的定义和描述
    • 词汇(Term)、概念(Concept)
  • 概念之间的相互关系(Relation)
    • 分类关系(Taxonomic Relation)
    Subclass: Is_A、Part_of
    • 非分类关系(Non-Taxonomic Relation) Property/Attribute
  • 公理(Axioms)
    在这里插入图片描述

知识体系 vs. 知识库

在这里插入图片描述
在这里插入图片描述


常用的知识组织形式
 Ontology(本体)
 Taxonomy(分类体系)
 Folksonomy/Metadata (开放标签)

  • Ontology(本体)
    在这里插入图片描述
    在这里插入图片描述
    本体的特点
    在这里插入图片描述
    Ontology 例子
    在这里插入图片描述
    在这里插入图片描述
    Ontology 应用
    管理知识(定义、存储、分类)
    减少歧义
    推理
    Ontology 问题
    在这里插入图片描述
  • Taxonomy(分类体系)
    Taxonomic Relation :领域相关
    在这里插入图片描述
  • Folksonomy/Metadata (开放标签)
    • 取消Taxonomic Relation
    • 概念类别冗余
      ➢ 可以存在多个表征同一概念的类别语义标签
      ➢ 类别标签由用户提供
      在这里插入图片描述
      不同知识组织形式的比较
      在这里插入图片描述

如何手工构建知识体系

知识体系构建的目标
在这里插入图片描述


人工构建方法
在这里插入图片描述

基于人工构建的知识体系难并且不全面,所以如何自动构建成为亟需解决的问题。

如何自动构建知识体系

自动构建方法
在这里插入图片描述

基于半结构化数据的知识体系挖掘

通过网络挖掘获取概念、关系
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

例子:面向百科文本的知识体系挖掘

在这里插入图片描述


结构化和非结构化数据
在这里插入图片描述

半结构化数据
在这里插入图片描述


半结构文本中的属性名、属性值抽取

目标:从百科普通条目半结构化网页中自从学习模板,抽取实体属性及相关的属性值
在这里插入图片描述
基本步骤
 半结构化信息块的识别/定位
 抽取模板的学习
 属性名、属性值抽取

  • 半结构化信息块定位
    在这里插入图片描述
    在这里插入图片描述
    结构化信息抽取
    在这里插入图片描述
    属性名与类别的对齐
    在这里插入图片描述
    在这里插入图片描述
    根据类别标签回标
    在这里插入图片描述
  • 模板学习
    在这里插入图片描述
    模板置信度估计
    在这里插入图片描述
    Random walking with Restart
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

基于Bootstrapping的抽取过程

在这里插入图片描述


思考:提升半结构化信息快识别的召回率
在这里插入图片描述

思考:改进框架

在这里插入图片描述


基于非结构化数据(纯文本)的知识体系构建

在这里插入图片描述


概念抽取:术语(Terminology)抽取

在这里插入图片描述


实体扩展(第6课)
在这里插入图片描述


术语发现(Terminology Extraction)
在这里插入图片描述


术语排序
在这里插入图片描述
Ranking:C-value/NC-value
在这里插入图片描述
在这里插入图片描述
Ranking:TF,TF-IDF
在这里插入图片描述
Domain Relevance
在这里插入图片描述
Domain Consensus (Information Entropy)
在这里插入图片描述
Ranking:Topic Model
在这里插入图片描述
利用主题分布计算词之间的相似度
在这里插入图片描述
Ranking:TextRank
在这里插入图片描述


同义词挖掘

在这里插入图片描述
层次聚类(Hierarchical clustering)
在这里插入图片描述


关系挖掘

基于模板学习的上下位关系抽取
在这里插入图片描述
在这里插入图片描述

模板质量的评估
在这里插入图片描述

基于词表示学习的上下位关系抽取
在这里插入图片描述
在这里插入图片描述
思考:基于词表示学习的上下位关系抽取
在这里插入图片描述


属性抽取(No-taxonomic Relation)
在这里插入图片描述
思考:非监督No-taxonomic Relation抽取
在这里插入图片描述

2. 知识融合

什么是知识融合

单一知识图谱难以覆盖各个领域,需要整合不同领域、不同语言、不同结构、不同模态的知识资源。但是不同来源知识体系具有差异性,那么如何融合呢?


知识图谱融合
在这里插入图片描述
例子
在这里插入图片描述


任务分解:本体匹配
在这里插入图片描述
任务分解:实例对齐
在这里插入图片描述
核心问题
在这里插入图片描述

知识融合基本方法

方法分类
在这里插入图片描述

基于文本相似度的映射方法

基于字符串匹配的映射方法

汉明距离(Hamming Distance):存在字符串𝑥,𝑡, 则它们之间的距离𝛿 (𝑥,𝑡) 定义为:
在这里插入图片描述
Substring Similarity:存在字符串𝑥, 𝑦, 𝑡是𝑥和𝑦的最长公共子串,则它们之间的相似度σ( 𝑥,𝑡) 定义为
在这里插入图片描述

N-gram Similarity: 𝑛𝑔𝑟𝑎𝑚( 𝑥, 𝑛) 为字符串𝑥 中长度为𝑛 的子串集合,则对于字符串𝑥,𝑡, 它们之间的相似度σ( 𝑥,𝑡) 定义为
在这里插入图片描述

编辑距离( Levenshtein Distance):将一个字符串转成另一个字符串的最少编辑操作数(插入、删除、替换)
在这里插入图片描述
将Lvensshtain 转换成Levenshtein,总共操作 3 次,编辑距离是3。这是典型的动态规划问题,可通过动态规划算法计算。给定两个字符串𝐴,𝐵,𝑖,𝑗分别为字符串𝐴, 𝐵的下标,则它们之间的编辑距离为𝛿𝐴,𝐵(|𝐴|, |𝐵|),不失一般性, 𝛿𝐴,𝐵(𝑖,𝑗)可以计算为:
在这里插入图片描述

基于语言处理的映射方法

在这里插入图片描述

基于语义匹配的映射方法

在这里插入图片描述
利用外部资源:WordNet,Hownet
在这里插入图片描述

基于结构相似度的映射方法

基于内部结构的映射方法

在这里插入图片描述

基于层级结构的相似度计算方法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
思考:基于树编辑距离
在这里插入图片描述

基于外部结构的映射方法

在这里插入图片描述

基于网络表示学习的映射方法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

小结

  • 本节课内容
    ➢知识体系:Ontology
    ➢知识体系构建方法
    ➢知识融合方法
  • 挑战
    ➢NLP技术面临巨大的挑战(语义表示)
    ➢Large Scale
    ➢Efficiency
    ➢背景知识
    ➢多系统融合
    ➢Crowdsourcing
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值