CAS-KG——知识体系构建与知识融合

最新推荐文章于 2024-05-27 20:50:54 发布

晴晴_Amanda

最新推荐文章于 2024-05-27 20:50:54 发布

阅读量315

点赞数

分类专栏：知识图谱与语义计算文章标签：自然语言处理知识图谱

本文链接：https://blog.csdn.net/qq_38293297/article/details/106043816

版权

知识图谱与语义计算专栏收录该内容

12 篇文章 7 订阅

订阅专栏

说明：CAS是国科大的简称，KG是知识图谱的缩写，这个栏目之下是我整理的国科大学习到的知识图谱的相关笔记。

课程目标

了解以知识图谱为代表的大数据知识工程的基本问题和方法
掌握基于知识图谱的语义计算关键技术
具备建立小型知识图谱并据此进行数据分析应用的能力

教学安排
详情请见博客：CAS-KG——课程安排

1. 知识体系构建

什么是知识体系

知识体系：对于知识数据的描述和定义，是描述知识数据的“元数据”
在这里插入图片描述

知识体系主要包含三方面内容

词汇、类别、概念的定义和描述
• 词汇（Term）、概念（Concept）
概念之间的相互关系（Relation）
• 分类关系（Taxonomic Relation）
Subclass: Is_A、Part_of
• 非分类关系（Non-Taxonomic Relation） Property/Attribute
公理（Axioms）

知识体系 vs. 知识库

在这里插入图片描述

常用的知识组织形式
 Ontology（本体）
 Taxonomy（分类体系）
 Folksonomy/Metadata （开放标签）

Ontology（本体）

本体的特点

Ontology 例子

Ontology 应用
管理知识（定义、存储、分类）
减少歧义
推理
Ontology 问题
Taxonomy（分类体系）
Taxonomic Relation ：领域相关
Folksonomy/Metadata （开放标签）
- 取消Taxonomic Relation
- 概念类别冗余
  ➢ 可以存在多个表征同一概念的类别语义标签
  ➢ 类别标签由用户提供
  
  不同知识组织形式的比较

如何手工构建知识体系

知识体系构建的目标
在这里插入图片描述

人工构建方法
在这里插入图片描述

基于人工构建的知识体系难并且不全面，所以如何自动构建成为亟需解决的问题。

如何自动构建知识体系

自动构建方法
在这里插入图片描述

基于半结构化数据的知识体系挖掘

通过网络挖掘获取概念、关系
在这里插入图片描述

例子：面向百科文本的知识体系挖掘

在这里插入图片描述

结构化和非结构化数据
在这里插入图片描述

半结构化数据
在这里插入图片描述

半结构文本中的属性名、属性值抽取

目标：从百科普通条目半结构化网页中自从学习模板，抽取实体属性及相关的属性值
在这里插入图片描述
基本步骤
 半结构化信息块的识别/定位
 抽取模板的学习
 属性名、属性值抽取

半结构化信息块定位

结构化信息抽取

属性名与类别的对齐

根据类别标签回标
模板学习

模板置信度估计

Random walking with Restart

基于Bootstrapping的抽取过程

在这里插入图片描述

思考：提升半结构化信息快识别的召回率
在这里插入图片描述

思考：改进框架

在这里插入图片描述

基于非结构化数据（纯文本）的知识体系构建

在这里插入图片描述

概念抽取：术语（Terminology）抽取

在这里插入图片描述

实体扩展（第6课）
在这里插入图片描述

术语发现（Terminology Extraction）
在这里插入图片描述

术语排序
在这里插入图片描述
Ranking：C-value/NC-value

Ranking：TF，TF-IDF

Domain Relevance

Domain Consensus (Information Entropy)

Ranking：Topic Model

利用主题分布计算词之间的相似度

Ranking：TextRank

同义词挖掘

在这里插入图片描述
层次聚类（Hierarchical clustering）

关系挖掘

基于模板学习的上下位关系抽取
在这里插入图片描述

模板质量的评估
在这里插入图片描述

基于词表示学习的上下位关系抽取
在这里插入图片描述

思考：基于词表示学习的上下位关系抽取

属性抽取（No-taxonomic Relation)
在这里插入图片描述
思考：非监督No-taxonomic Relation抽取

2. 知识融合

什么是知识融合

单一知识图谱难以覆盖各个领域，需要整合不同领域、不同语言、不同结构、不同模态的知识资源。但是不同来源知识体系具有差异性，那么如何融合呢？

知识图谱融合
在这里插入图片描述
例子

任务分解：本体匹配
在这里插入图片描述
任务分解：实例对齐

核心问题

知识融合基本方法

方法分类
在这里插入图片描述

基于文本相似度的映射方法

基于字符串匹配的映射方法

汉明距离（Hamming Distance）：存在字符串𝑥,𝑡, 则它们之间的距离𝛿 (𝑥,𝑡) 定义为：
在这里插入图片描述
Substring Similarity：存在字符串𝑥, 𝑦, 𝑡是𝑥和𝑦的最长公共子串，则它们之间的相似度σ( 𝑥,𝑡) 定义为

N-gram Similarity： 𝑛𝑔𝑟𝑎𝑚( 𝑥, 𝑛) 为字符串𝑥 中长度为𝑛 的子串集合，则对于字符串𝑥,𝑡，它们之间的相似度σ( 𝑥,𝑡) 定义为
在这里插入图片描述

编辑距离（ Levenshtein Distance）：将一个字符串转成另一个字符串的最少编辑操作数（插入、删除、替换）
在这里插入图片描述
将Lvensshtain 转换成Levenshtein，总共操作 3 次，编辑距离是3。这是典型的动态规划问题，可通过动态规划算法计算。给定两个字符串𝐴,𝐵，𝑖,𝑗分别为字符串𝐴, 𝐵的下标，则它们之间的编辑距离为𝛿𝐴,𝐵(|𝐴|, |𝐵|)，不失一般性， 𝛿𝐴,𝐵(𝑖,𝑗)可以计算为：
在这里插入图片描述