说明:CAS是国科大的简称,KG是知识图谱的缩写,这个栏目之下是我整理的国科大学习到的知识图谱的相关笔记。
课程目标
- 了解以知识图谱为代表的大数据知识工程的基本问题和方法
- 掌握基于知识图谱的语义计算关键技术
- 具备建立小型知识图谱并据此进行数据分析应用的能力
教学安排
详情请见博客:CAS-KG——课程安排
文章目录
1. 知识体系构建
什么是知识体系
知识体系:对于知识数据的描述和定义,是描述知识数据的“元数据”
知识体系主要包含三方面内容
- 词汇、类别、概念的定义和描述
• 词汇(Term)、概念(Concept) - 概念之间的相互关系(Relation)
• 分类关系(Taxonomic Relation)
Subclass: Is_A、Part_of
• 非分类关系(Non-Taxonomic Relation) Property/Attribute - 公理(Axioms)
知识体系 vs. 知识库
常用的知识组织形式
Ontology(本体)
Taxonomy(分类体系)
Folksonomy/Metadata (开放标签)
- Ontology(本体)
本体的特点
Ontology 例子
Ontology 应用
管理知识(定义、存储、分类)
减少歧义
推理
Ontology 问题
- Taxonomy(分类体系)
Taxonomic Relation :领域相关
- Folksonomy/Metadata (开放标签)
- 取消Taxonomic Relation
- 概念类别冗余
➢ 可以存在多个表征同一概念的类别语义标签
➢ 类别标签由用户提供
不同知识组织形式的比较
如何手工构建知识体系
知识体系构建的目标
人工构建方法
基于人工构建的知识体系难并且不全面,所以如何自动构建成为亟需解决的问题。
如何自动构建知识体系
自动构建方法
基于半结构化数据的知识体系挖掘
通过网络挖掘获取概念、关系
例子:面向百科文本的知识体系挖掘
结构化和非结构化数据
半结构化数据
半结构文本中的属性名、属性值抽取
目标:从百科普通条目半结构化网页中自从学习模板,抽取实体属性及相关的属性值
基本步骤
半结构化信息块的识别/定位
抽取模板的学习
属性名、属性值抽取
- 半结构化信息块定位
结构化信息抽取
属性名与类别的对齐
根据类别标签回标
- 模板学习
模板置信度估计
Random walking with Restart
基于Bootstrapping的抽取过程
思考:提升半结构化信息快识别的召回率
思考:改进框架
基于非结构化数据(纯文本)的知识体系构建
概念抽取:术语(Terminology)抽取
实体扩展(第6课)
术语发现(Terminology Extraction)
术语排序
Ranking:C-value/NC-value
Ranking:TF,TF-IDF
Domain Relevance
Domain Consensus (Information Entropy)
Ranking:Topic Model
利用主题分布计算词之间的相似度
Ranking:TextRank
同义词挖掘
层次聚类(Hierarchical clustering)
关系挖掘
基于模板学习的上下位关系抽取
模板质量的评估
基于词表示学习的上下位关系抽取
思考:基于词表示学习的上下位关系抽取
属性抽取(No-taxonomic Relation)
思考:非监督No-taxonomic Relation抽取
2. 知识融合
什么是知识融合
单一知识图谱难以覆盖各个领域,需要整合不同领域、不同语言、不同结构、不同模态的知识资源。但是不同来源知识体系具有差异性,那么如何融合呢?
知识图谱融合
例子
任务分解:本体匹配
任务分解:实例对齐
核心问题
知识融合基本方法
方法分类
基于文本相似度的映射方法
基于字符串匹配的映射方法
汉明距离(Hamming Distance):存在字符串𝑥,𝑡, 则它们之间的距离𝛿 (𝑥,𝑡) 定义为:
Substring Similarity:存在字符串𝑥, 𝑦, 𝑡是𝑥和𝑦的最长公共子串,则它们之间的相似度σ( 𝑥,𝑡) 定义为
N-gram Similarity: 𝑛𝑔𝑟𝑎𝑚( 𝑥, 𝑛) 为字符串𝑥 中长度为𝑛 的子串集合,则对于字符串𝑥,𝑡, 它们之间的相似度σ( 𝑥,𝑡) 定义为
编辑距离( Levenshtein Distance):将一个字符串转成另一个字符串的最少编辑操作数(插入、删除、替换)
将Lvensshtain 转换成Levenshtein,总共操作 3 次,编辑距离是3。这是典型的动态规划问题,可通过动态规划算法计算。给定两个字符串𝐴,𝐵,𝑖,𝑗分别为字符串𝐴, 𝐵的下标,则它们之间的编辑距离为𝛿𝐴,𝐵(|𝐴|, |𝐵|),不失一般性, 𝛿𝐴,𝐵(𝑖,𝑗)可以计算为:
基于语言处理的映射方法
基于语义匹配的映射方法
利用外部资源:WordNet,Hownet
基于结构相似度的映射方法
基于内部结构的映射方法
基于层级结构的相似度计算方法
思考:基于树编辑距离
基于外部结构的映射方法
基于网络表示学习的映射方法
小结
- 本节课内容
➢知识体系:Ontology
➢知识体系构建方法
➢知识融合方法 - 挑战
➢NLP技术面临巨大的挑战(语义表示)
➢Large Scale
➢Efficiency
➢背景知识
➢多系统融合
➢Crowdsourcing