概况
搜索核心需求: 让搜索通往答案
Ø无法理解搜索关键词
Ø无法精准回答
根本问题
Ø缺乏大规模背景知识
Ø传统知识表示难以满足需求
知识图谱狭义概念
知识图谱(Knowledge Graph, KG)本质上是一种大规模语义网络,是互联网时代的语义网知识表示框架。
Ø 富含实体(entity)、概念(concepts)及其之间的各种语义关系(semantic relationships)知识图谱的狭义概念
作为一种语义网络,大数据时代知识表示的重要表达方式之一
知识图谱是一种以图形化的(Graphic)形式通过节点和边表达知识的方式,其基本组成元素是节点和边
KG组成-实体与节点
实体(Entity):又称为对象(Object)或实例Instance)
Ø 指客观世界中具有可区别性且独立存在的某种事物
概念(Concept):又称为类别(Type)、类Category、Class)
Ø 反映一组实体的种类或对象类型,如哲学家、唯心主义哲学家
属性值(Property Value / Attribute Value):指实体特定属性的值
Date
Ø 特朗普 出生日期 1946年6月14日
String
Ø 特朗普 简介 “唐纳德·特朗普(Donald Trump),第45任美国总统,1946年6月14日生于纽约,美国共和党籍政治家
Numeric
Ø 特朗普 年龄 71
关系(Relation)
Ø 侧重实体之间的关系,如“柏拉图”和“苏格拉底”这两个实体存在“导师”关系
属性(Property/Attribute/Quality)
Ø 指某个实体可能具有的特征以及参数,如“苏格拉底”具有“出生时间”这个特征
优点
实体/概念覆盖率高
各种语义关系覆盖率高
质量高
Ø 基于大数据自动构建: 各种数据源之间交叉验证,可靠性高
Ø 基于众包构建:依赖人工,质量高
结构化组织
Ø 基于RDF三元组,每条知识对应一个(Subject,Predicate,Object)三元组
Ø 基于图(节点表示实体/概念/属性值,边表示关系)
不足
• 提升知识图谱的规模往往会付出质量方面的代价
Ø 可以预先定义人的“身高”取值范围为0.5m ~ 2.3m,但可能存在某个人,其身高达到2.31m
Ø “黄晓明”的妻子曾经是“杨颖”,但现在并非如此
• 知识图谱在设计模式时通常会采取一种“经济、务实”的做法:也就是允许模式(Schema)定义不完善,甚至缺失
模式定义不完善或缺失对知识图谱中的数据语义理解以及数据质量控制提出了挑战
• 传统数据库与知识库的应用通常建立在封闭世界假设(CWA)基础之上。 CWA 是假定数据库或知识库中不存在(或未观察到)的事实即为不成立的事实
• 大多数开放性应用不遵守这一假设。也就是说,在这些应用中缺失的事实或知识未必为假
Ø 很难保证知识图谱中关于柏拉图的信息完整,很可能会缺失柏拉图父母的信息。但常识告诉我们柏拉图一定有父母。
不遵守CWA 给知识图谱上的应用带来了巨大的挑战
• 传统知识工程依赖专家完成知识获取,这一方式难以实现大规模知识获取,难以满足知识图谱的规模要求。
• 大规模自动化知识获取是知识图谱与传统语义网络的根本区别。
• 大规模自动化知识获取和图谱构建
Ø 词汇挖掘
Ø 实体识别
Ø 关系抽取
词汇挖掘
• 知识图谱中的节点
Ø 实体,eg,复旦大学
Ø 概念,eg, 学校
Ø 属性值(依附于实体存在),eg,1946年6月14日
实体、概念、属性值都是词汇
• 理解一个领域往往是从理解领域词汇开始的
• 与图书情报领域的叙词表(主题词表)构建相关
• 词汇知识是理解用户意图的关键知识
• 广泛应用
Ø 比如,猎头如果要寻找知识图谱领域的专家或学者,只需要判断候选人的简历或者论文题目中是否包含知识图谱的领域词汇
• 词汇挖掘指的是从给定的领域语料中自动挖
掘属于该领域的高质量词汇的过程。
• 高质量词汇
Ø 高频率:一个 N-Gram在给定的文档集合中要出现得足够频繁才能被视作高质量词汇(N-Gram:N个连续的词组成的短语)
Ø 一致性:N-Gram 中不同单词的搭配是否合理或者是否常见
Ø 信息量:一个高质量词汇应该传达一定的信息,表达一定的主题或者概念
• 比如,“机器学习”与“这篇论文”
Ø 完整性:一个高质量词汇还必须在特定的上下文中是一个完整的语义单元。
• 比如,“学习” vs“机器学习”
输入领域预料(人工智能论文集)输出高质量词汇(支持向量机、卷积神经网络、机器学习)
挖掘方法
- • 基于规则
• 通过预定义的词性标签(POS Tag)规则来识别文档中的高质量名词短语。
• 缺陷:
Ø 规则一般是针对特定领域手工设计的,难以适用于其他领域。
Ø 人工定义规则代价高昂,难以穷举所有的规则,因此在召回率存在一定的局限性
- 基于统计学习
• 无监督学习
Ø 通过计算候选短语的统计特征从而给词汇打分、排序来进行领域词汇挖掘。
• 有监督学习
Ø 根据人工标注或远程监督标注的高质量词汇,建立高质量词汇分类模型。
无监督学习
- 候选短语生成:N-Gram得到高频候选短语。
- 统计特征计算:如计算TF-IDF和PMI等。
- 质量评分:融合这些特征的值(如加权求和等)得到短语的最终分数。
- 排序输出:取topK或根据阈值筛选词汇输出。
有监督学习
- 样本标注:人工标注或者远程监督标注样本。
- 分类器学习:根据正负样本,学习一个二元分类器。分类器模型可以是逻辑斯蒂回归、决策树或者支持向量机。对于每个样本,使用统计指标(TF-IDF、C-value以及 PMI 等)构造相应的特征向量。
有监督学习+迭代式优化
• 语料切割:
利用模型来识别高质量短语,再根据已经发现的高质量短语对语料进行切割,在切割的基础上重新统计词频,改进词频统计的精度。
语料切割与高质量词汇挖掘两者互相增强
TF-IDF(词频-逆文档频率)
• 高质量短语 :
Ø 词频:在领域语料中频繁出现,即词频(term frequency,tf) 高
Ø 逆文档频率:在外部文档中很少出现,即文档频率(documentfrequency, df)低,逆文档频率(inverse document frequency,idf) 高
【“的”、“是”和“由于”等词汇过于普遍,不适合用来刻画该领域语料的特征】
TF-IDF:反义ing词汇重要程度
T F − I D F ( u ) = t f ∗ i d f TF-IDF(u)=tf*idf TF−IDF(u)=tf∗idf
t f ( u ) = f ( u ) ∑ u ′ f ( u ′ ) tf(u)=\frac{f(u)}{\sum_{u'}f(u')} tf(u)=∑u′f(u′)f(u)
i d f ( u ) = l o g ∣ D ∣ + δ ∣ { j : u ∈ d j } ∣ + δ idf(u)=log\frac{|D|+\delta}{|\{j:u\in d_j\}|+\delta} idf(u)=log∣{
j:u∈d