UCAS - AI学院 - 知识图谱专项课 - 第5讲 - 课程笔记

知识体系构建与知识融合

知识体系构建

知识体系

  • 知识体系:对于知识数据的描述和定义——“元数据”
  • 包含内容
    • 词汇、类别、概念的定义和描述
    • 概念之间的相互关系(分类关系 / 非分类关系)
    • 公理(抽象规则)
  • 与知识库的关系
    • 知识体系:共享概念化的框架规范
    • 知识库:服从于知识体系规定的知识单元载体
  • 常用组织形式
    • 本体Ontology
      • 特定领域内信息组织的形式,领域知识规范的抽象和描述
      • 对概念、属于及其相互关系的规范化描述
      • 真实世界的描述模型
      • 使用合适的逻辑形式化
      • 定义: ⟨ C , I , R , T , V , ≤ , ⊥ , ∈ , = ⟩ \langle C, I, R, T, V, \le, \bot, \in, = \rangle C,I,R,T,V,,,,=
        • C C C,类别集合
        • I I I,实例集合
        • R R R,关系集合
        • T T T,数据类型集合
        • V V V,属性下的具体值集合
        • ≤ \le ,专门化关系,存在于类别之间、关系之间以及数据类型之间
        • ⊥ \bot ,不包含关系,存在于类别之间、关系之间以及数据类型之间
        • ∈ \in ,实例化关系,存在于实例与类别之间、值与数据类型之间
        • = = =,赋值关系,存在于 I × R × ( I ∪ V ) I \times R \times (I \cup V) I×R×(IV)
      • 特点
        • 概念化:系统蕴含的语义结构
        • 显式化:显式定义
        • 规范化:机器可读
        • 公理化:一个群体共同认可
      • 应用
        • 管理知识(定义、存储、分类)
        • 减少歧义
        • 推理
      • 问题
        • 层级体系严格,出现二义性的问题,以及isa还是partof的问题
      • 比较
        • 树状结构,上下位严格IsA
        • 优点,可以适用于知识推理
        • 缺点,无法表示概念的二义性
    • 分类体系Taxonomy
      • 不严格:领域相关即可
      • 比较
        • 树状结构,上下位非严格IsA
        • 优点,可以表示概念的二义性
        • 缺点,不适用于推理,无法避免概念冗余
    • 开放标签Folksonomy / Metadata
      • 取消层级关系
      • 概念类别冗余
        • 存在多个表征同一概念的于一标签
        • 类别标签由用户提供
      • 比较
        • 类别标签,更加开放
        • 优点,能够涵盖更多的概念
        • 缺点,如何进行标签管理

知识体系构建

  • 目标

    • 术语、概念、类别
    • 概念、类别层级体系
    • 属性关系(继承)
    • 约束(定义域、值域)
  • 人工构建方法

    • 确定领域任务(非通用、可穷举)
    • 体系复用
    • 定义术语、概念、类别
    • 确定分类体系
    • 确定关系、属性
    • 定义约束
  • 自动构建方法

    • 任务
      • 挖掘术语、概念、类别
      • 构建概念、类别层级体系
      • 挖掘属性关系
    • 方法
      • 基于结构化、半结构化数据的知识体系构建(模板挖掘——模板学习、噪声滤除)
        • 结构化数据,置信度高,但规模较小
          • 人工模板(同一网站具有唯一性)
        • 半结构化数据,置信度较高,规模较大,形式多样,还有噪声
          • 页面具有相似性,一定程度可以复用
            • 模板学习和噪声滤除
      • 基于非结构化数据的知识体系构建
        • 纯文本,置信度低,复杂多样,规模很大
    • 注意
      • 目前不可直接使用、可以节省人力
      • 通常只需要构建一次,人工构建实际可行
  • 半结构化数据:学习模板,抽取实体属性和相关属性值

    • 半结构化信息快识别定位
      • 属性名和属性值连续出现,结构连续出现
      • 属性名确定,人工模板(结构化数据)
      • 属性名与类别的对齐 score ⁡ ( i t e m , c l a s s ) = count ⁡ ( i t e m , c l a s s ) count ⁡ ( i t e m ) count ⁡ ( c l a s s ) \operatorname{score}(item, class) = \frac {\operatorname{count}(item, class)}{\operatorname{count}(item) \operatorname{count}(class)} score(item,class)=count(item)count(class)count(item,class)
      • 根据类别标签回标
    • 抽取模板学习
      • 前缀:属性名到上一个属性名的最长公共后缀
      • 后缀:属性名到下一个属性名的最长公共后缀
      • 分隔符:属性名到下一个属性名的最长公共前缀
      • 置信度估计
        • 模板与属性名排序
        • 高质量属性名产生的模板质量高
        • 高质量模板抽取属性名质量高,所在网页质量高
        • 高质量网页产生的模板质量高,抽取属性名质量高
        • 构建一个图(属性名种子、文档、模板),利用随机游走进行排序,计算每个结点的置信度
        • r ⃗ i = c W ~ r ⃗ i + ( 1 − c ) e ⃗ i \vec r_i = c \widetilde {\bold W} \vec r_i + (1 - c) \vec e_i r i=cW r i+(1c)e i
          • r ⃗ i \vec r_i r i,排序向量(随机游走 i i i步)
          • W ~ \widetilde W W ,邻接矩阵
          • e ⃗ i \vec e_i e i,先验向量(是否已知为属性名)
    • 属性名、属性值抽取
    • 基于Bootstrapping的抽取
      • 属性名和模板相互促进
      • [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qUXQrAMP-1587294218451)(assets/image-20200331150456397.png)]
    • 召回率
      • 已有属性名进行定位,召回率低
      • 改进——利用模板实现块定位
      • [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oiqZoM6G-1587294218462)(assets/image-20200331150545981.png)]
  • 非结构化数据

    • 术语、概念抽取
      • 生成术语候选
        • n-grams
          • 枚举所有可能性
          • 通过ranking滤除噪声
        • 基于模板的抽取
          • 名词+名词的模板等
      • 候选排序、过滤噪声
        • 基于频率统计的方法
          • C-value / NC-value:使用这两个值对短语置信度进行估计
            • C-value,衡量预料中出现的高频的最长短语, Cvalue ⁡ = { log ⁡ 2 ∣ a ∣ f ( a ) if  ∣ a ∣ = g log ⁡ 2 ∣ a ∣ ( f ( a ) − 1 ∣ C ( a ) ∣ ∑ k C ( a ) f ( k ) ) otherwise \operatorname{Cvalue} = \begin{cases}\log_2|a|f(a) & \text{if } |a| = g \\ \log_2|a|(f(a) - \frac 1 {|C(a)|}\sum_k^{C(a)} f(k)) & \text{otherwise} \end{cases} Cvalue={log2af(a)log2a(f(a)C(a)1kC(a)f(k))if a=gotherwise
            • C ( a ) C(a) C(a)为包含 a a a的候选集合(包含 a a a的更长词), g g g为预设的候选最长长度
            • NC-value,额外考虑上下文信息, NCvalue ⁡ ( a ) = α Cvalue ⁡ ( a ) + ( 1 − α ) ( ∑ t ∈ C a f a ( t ) f ( t ) n ) \operatorname{NCvalue}(a) = \alpha \operatorname{Cvalue}(a) + (1 - \alpha) (\sum_{t \in C_a} f_a(t) \frac {f(t)}n) NCvalue(a)=αCvalue(a)+(1α)(tCafa(t)nf(t))
            • C α C_\alpha Cα为上下文词集合, f a ( t ) f_a(t) fa(t) t t t a a a上下文出现的频率, n n n为语料中所有词的个数
          • 搜索引擎验证,双引号强制全词搜索
          • TF-IDF
          • Domain Relevance,抽取领域相关的候选
            • DR ⁡ ( t , k ) = p ( t ∣ D k ) ∑ i m p ( t ∣ D i ) \operatorname{DR}(t,k) = \frac{p(t | D_k)}{\sum_i^m p(t | D_i)} DR(t,k)=imp(tDi)p(tDk)
            • p ( t ∣ D k ) p(t | D_k) p(tDk)表示候选 t t t在领域 D k D_k Dk出现的概率
            • 非术语,不同领域分布相似;术语,在目标领域内具有显著性
          • 领域公式,Domain Consensus(信息熵)
            • RC ⁡ ( t , k ) = ∑ d ∈ D k p ( t ∣ d ) log ⁡ 1 p ( t ∣ d ) \operatorname{RC}(t, k) = \sum_{d \in D_k} p(t | d) \log \frac 1 {p(t | d)} RC(t,k)=dDkp(td)logp(td)1
            • 非术语,不同领域出现概率类似;术语,不同领域概率不同,由明显的语义特性(熵会很大)
        • 基于主题模型的方法
          • 聚类文档中同样主题的词
          • 篇章中的词,以一定概率从主题中选取
          • 不同的主题,词语出现的概率分布不同
          • 提取不同主题中出现概率较大的词语
          • 计算主题上的相似度
        • 基于图排序的方法
          • 借助PageRank的思想:被很多网页链接的网页更重要,被权值更高的网页链接,其重要性会增加
          • TextRank:判断相关关系,更具共现关系,取一定长的窗判断是否共现
          • 术语选择,随机游走计算每个词语的重要程度,按照该程度选择术语
      • 可以认为是实体扩展的过程
        • 给定一些实体(种子),自动挖掘与之相关、相似的同类型实体
        • 基本假设:同类型的实体具有相同、相似的上下文
        • Bootstrapping
    • 同义词挖掘
      • 目标:将相同 / 相近语义的术语聚合在一起,形成概念
      • 基于网络挖掘的同义词挖掘方法
      • 基于词典挖掘的同义词挖掘方法(WordNet,HowNet)
      • 基于聚类的同义词挖掘方法
      • 层次聚类
        • 自底向上过程
        • 距离可以考虑使用语义表示计算(空间投射)
    • 关系挖掘
      • 上下位关系
        • 基于模板学习的上下位关系抽取
          • Bootstrapping:学习——过滤——上下位关系抽取——回标产生更多模板
          • 模板质量评估:图估计,质量越高的模板抽取的概念以及概念关系越准确;置信度高的概念以及概念关系所在的模板置信度越高
        • 基于词表示学习的上下文关系抽取
          • 利用词的向量表示,计算词之间的上下文关系
          • x x x及其上位词 y y y,学习映射 Φ \Phi Φ,使得 Φ ∗ = arg ⁡ min ⁡ Φ 1 N ∑ ∥ Φ x − y ∥ 2 \Phi^\ast = \arg \min_\Phi \frac 1N \sum \|\Phi x - y\|^2 Φ=argminΦN1Φxy2
          • 对一个新词 z z z,其上位词 w w w满足 ∥ Φ z − w ∥ 2 ≤ δ \|\Phi z - w\|^2 \le \delta Φzw2δ
          • 词向量的运算很难只体现上下位关系
      • 属性关系
        • 针对某一概念、实体,抽取其属性关系,通常限定领域或限定类别
        • 基于句法、词性的模板抽取方法
        • 面对特定领域内文本的属性名抽取,可以利用额外信息
        • 非监督的属性关系抽取
          • surface / syntactic模板,获取实体间的语义关系表示
          • 在此基础上对语义关系表示进行聚类,进而实现非监督的关系抽取
    • 已有Ontology
      • SUMO,目前最大的公共本体
      • GeoNames

知识融合

知识融合

  • 整个不同语言、不同结构、不同模态的知识资源
  • 差异性
    • 属性定义不统一
    • 分类体系不统一——需要对齐
    • 来源不同知识源的实体共指
    • 跨语言知识融合
  • 应用:多知识库问答
  • 任务定义:对于两个知识图谱 O O O O ′ O^\prime O,其中 I I I I ∗ I^\ast I分别为两个图谱中的元素,知识融合的目标就是加你三元组 ⟨ I , I ′ , r ⟩ \langle I, I^\prime, r \rangle I,I,r,其中 r r r表示元素之间的关系,包括 ≤ ≥ = ⊥ \le \ge = \bot =
  • 目标:将两个知识图谱融合为一个统一、一致、简洁的形式,为使用不同知识图谱的应用程序之间的交互建立互操作性
  • 任务分解
    • 本体匹配
      • 侧重发现等价或相似的类、属性、或关系
      • 本体对齐
    • 实体对齐
      • 侧重发现指称真实世界相同对象的不同实例
      • 实体消解、实例匹配
  • 核心问题:语义匹配(不同字符、语言、结构、表达)
    • 文本相似性
      • 字形、语言、语义
      • 文本本身、借助外部资源
    • 结构相似性
      • 上下位层级关系、Domain、Range
      • 单对匹配 / 集体(collective)匹配

知识融合基本方法

  • 基于文本相似度的映射方法
    • 基于字符串匹配的映射方法
      • 汉明距离: δ ( x , t ) = ( ∑ i s [ i ] ≠ t [ i ] ) + ∣ ∣ s ∣ − ∣ t ∣ ∣ max ⁡ ( ∣ s ∣ , ∣ t ∣ ) \delta(x, t) = \frac {(\sum_i s[i] \neq t[i]) + ||s|-|t||}{\max(|s|,|t|)} δ(x,t)=max(s,t)(is[i]=t[i])+st,对应位置不同字符的个数
      • 子串相似度:对 x x x y y y,最长公共子串为 t t t,相似度为 σ ( x , y ) = 2 ∣ t ∣ ∣ x ∣ + ∣ y ∣ \sigma(x, y) = \frac {2 |t|} {|x| + |y|} σ(x,y)=x+y2t
      • n-gram相似度: ngram ⁡ ( x , n ) \operatorname{ngram}(x, n) ngram(x,n)表示字符串 x x x中长度为 n n n的子串集合,有相似度 σ ˉ ( s , t ) = ngram ⁡ ( s , n ) − ngram ⁡ ( t , n ) min ⁡ ( ∣ s ∣ , ∣ t ∣ ) − n + 1 \bar \sigma (s, t) = \frac {\operatorname{ngram}(s, n) - \operatorname{ngram}(t, n)}{\min(|s|, |t|) - n + 1} σˉ(s,t)=min(s,t)n+1ngram(s,n)ngram(t,n)
      • 编辑距离:插入、删除、替换的最少操作数(NLP有讲)
    • 基于语言处理的映射方法
      • 语言规范化:词切分、词形还原、停用词消除
    • 基于语义匹配的映射方法
      • 获取语义向量表示,基于距离度量函数计算相似度
      • σ V ( s , t ) = ∑ i ∈ ∣ V ∣ s ⃗ i × t ⃗ i ∑ i ∈ ∣ V ∣ s ⃗ i 2 × ∑ i ∈ ∣ V ∣ v ⃗ i 2 \sigma_V(s, t) = \frac {\sum_{i \in |V|} \vec s_i \times \vec t_i}{\sqrt{\sum_{i \in |V|} \vec s_i^2 \times \sum_{i \in |V|} \vec v_i^2}} σV(s,t)=iVs i2×iVv i2 iVs i×t i
      • 核心问题:如何得到语义向量
        • 利用外部资源(WordNet、HowNet)
          • WordNet中的直接标注信息(上下位、同义、反义)
          • WordNet中的Synset标注构建语义向量
        • 基于搜索引擎的语义相似度计算(返回文档数)
          • NGD ⁡ ( x , y ) = max ⁡ { log ⁡ f ( x ) , log ⁡ f ( y ) } − log ⁡ f ( x , y ) log ⁡ M − min ⁡ { log ⁡ f ( x ) , log ⁡ f ( y ) } \operatorname{NGD}(x, y) = \frac {\max\{\log f(x), \log f(y)\} - \log f(x, y)}{\log M - \min\{\log f(x), \log f(y)\}} NGD(x,y)=logMmin{logf(x),logf(y)}max{logf(x),logf(y)}logf(x,y)
          • M M M为搜索引擎所有文档树数
      • 基于词向量表示的语义匹配
        • 利用上下文信息学习词的词表示向量
      • 相似度similarity不等价于相关度relevance
        • 同义关系 vs. 搭配关系
  • 基于结构相似度的映射方法
    • 基于内部结构的映射方法
      • 面对实体内部结构信息
        • 属性的Domain和Range
        • 常用于对齐前的预处理,去掉明显不能对齐的实体
    • 基于外部结构的映射方法
      • 基于图的图谱结构计算两个结点的相似度
      • 基本假设:如果两个结点的邻居节点是类似的,这两个结点也是类似的
      • 基于层级结构的相似度计算方法
        • 拓扑结构相似度 δ ( e , e ′ ) = min ⁡ c ∈ o [ δ ( e , c ) + δ ( e ′ , c ) ] \delta(e, e^\prime) = \min_{c \in o} [\delta(e, c) + \delta(e^\prime, c)] δ(e,e)=minco[δ(e,c)+δ(e,c)](边的数量表示路径)
        • 规范化距离 δ ˉ ( e , e ′ ) = δ ( e , e ′ ) max ⁡ c , c ′ ∈ o δ ( c , c ′ ) \bar \delta(e, e^\prime) = \frac {\delta(e, e^\prime)}{\max_{c, c^\prime \in o}\delta(c, c^\prime)} δˉ(e,e)=maxc,coδ(c,c)δ(e,e)
        • 基于共享父类的相似度 σ ( c , c ′ ) \sigma(c, c^\prime) σ(c,c)(父类集合的交并比)
        • 基于树编辑距离?
    • 基于网络结构表示学习的映射方法
      • 直接将实体和关系的向量表示进行相似度计算,学习深度特征
      • TransE
      • 联合知识表示学习(对已知可链接实体对两个KG进行约束)
      • 双向监督训练(单独训练,预链接数据交替进行监督)
  • 方法融合
    • 多个方法一起使用
    • 线性融合,不同相似度计算方法加权融合
    • 迭代式融合
    • 投票策略(解决不同方法之间的冲突)
    • 全局寻优、联合推断(贝叶斯网络)
  • 大规模知识图谱融合
    • 效率问题
    • 冲突问题
    • 分而治之?如何划分
  • 评价
    • P,R,F1
    • 基于检索的评价指标TopN
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值